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李 奇 和 拉 辛 的 《 非 参数 计量 经 济 学 》 对 于 任何 一 个 认真 地 从 事前 沿 问题 研究 的 计 
量 经 济 学 家 或 统计 学 家 来 说 都 是 一 部 必 读 的 著作 。 本 书 同时 覆盖 了 主流 理论 和 相对 冷 
个 的 领域 ， 因 此 对 于 非 参 数 方法 的 理论 介绍 是 相当 全 面 的 。 我 尤其 欣赏 作者 对 连续 和 
离散 回归 量 以 及 设 定 检验 的 处 理 ， 我 从 未 见 过 以 如 此 全 面 的 方式 对 这 一 主题 的 处 理 。 
毫 无 疑问 ， 我 将 以 本 书 作 为 我 的 研究 生计 量 经 济 学 课程 的 教材 ， 并 用 于 我 个 人 研究 的 
参考 。 


一 一 罗 宾 。 西 克 尔 斯 ， 莱 新 大 学 


很 少 有 学 生 试 图 应 用 非 参数 方法 来 分 析 现 实数 据 ， 这 也 许 是 因为 缺少 一 本 优秀 的 
教科 书 来 从 直观 上 解释 这 类 技术 如 何 应 用 于 现实 ， 以 及 为 什么 要 使 用 这 类 技术 。 而 李 
奇 和 拉 辛 的 这 本 书 将 同时 服务 于 应 用 研究 者 和 研究 生 。 本 书 语言 通俗 易 情 ， 任 何 具备 
基本 计量 经 济 学 知识 却 对 非 参数 计量 方法 毫 不 了 解 的 人 都 可 以 理解 它 的 内 容 。 本 书 还 
包含 了 丰富 的 细节 ， 从 而 清晰 地 阐述 了 实施 这 些 方法 的 步骤 。 

一 一 苹 春 荣 ， 佛 罗 里 达 大 学 


本 书 对 计量 经 济 学 领域 做 出 了 重要 页 献 。 它 全 面 地 履 盖 了 非 参数 和 半 参 数 方法 在 

经 济 模型 和 经 济 数据 中 的 应 用 ， 而 且 第 一 次 以 一 种 简明 的 方式 处 理 了 与 离散 数据 及 混 

合 数据 相关 的 新 内 容 。 本 书 很 好 地 平衡 了 理论 与 实践 两 个 方面 。 除 了 可 以 作为 研究 生 
层次 的 优秀 教材 ， 我 相信 这 本 书 也 将 成 为 很 多 研究 人 员 必 备 的 案头 参考 。 

— ° E. 贾 尔 斯 维多利亚 大 学 
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在 本 书 中 ,术语 “ 非 参 数 ”( nonparametric ) 是 指 不 要 
求 一 个 研究 者 对 一 个 待 估 对 象 设 定 一 个 函数 形式 的 统 
计 技 术 。 我 们 不 是 假定 一 个 对 象 的 函数 形式 是 已 知 的 ， 
且 取 决 于 一 些 ( 有 限 的 ) 未 知 参 数 , 而 是 对 研究 对 象 用 更 
少 的 限制 性 假设 ,如 平滑 性 (可 微 性 ) 和 和 矩 约 束 来 替代 。 
例如 , 当 我 们 对 估计 一 个 地 区 的 收入 分 布 感 兴趣 时 ,不 
是 假设 其 密度 函数 属于 类 似 正 态 或 对 数 正 态 族 的 一 个 
参数 族 , 而 只 是 假设 其 密度 函数 是 二 阶 (或 三 阶 ) 可 微 
的 。 当 然 ,如 果 人 们 拥有 关于 感 兴趣 的 对 象 的 函数 形式 
的 先 验 知识 (有 人 称 之 为 “神圣 的 洞察 力 ”( divine in- 
sight) ) ,那么 ,他 们 通过 使 用 参数 技术 将 会 做 得 更 好 。 
然而 ,在 实践 中 ,这 些 函 数 形式 很 少 是 已 知 的 ,并 且 不 能 
忽视 参数 的 错误 设 定 所 带 来 的 众所周知 的 后 果 ,这 里 不 
Foy 

由 于 非 参 数 技术 对 待 估 对 象 比 参 数 技术 做 了 更 少 
的 假设 , 非 参 数 估 计量 倾向 于 比 “ 正 确 设 定 ” 的 参数 估计 
量 更 慢 地 收敛 于 研究 对 象 。 此 外 ,不 像 它 们 的 参数 对 应 
部 分 ,收敛 速度 通常 跟 包含 的 变量 ( 协 变量 ) 数 目 反 向 相 
关 , 即 变量 越 多 收敛 速度 越 慢 ,这 有 时 被 称 作 “ 维 数 诅 
HE” ( curse of dimensionality ) 。 然 而 ,经常 令 人 惊讶 的 是 ， 
即使 对 不 是 很 大 的 数据 集 , 非 参数 方法 也 能 够 揭示 人 们 
在 使 用 普通 参数 函数 形式 时 可 能 忽略 的 在 这 些 数据 中 
的 结构 。 因 此 , 非 参 数 方法 最 适用 于 以 下 情况 :(1) 人 
们 对 等 估 对 象 的 函数 形式 所 知 甚 少 ,(2) 变量 ( 协 变量 ) 
数目 较 小 ,(3) 研究 者 有 一 个 相当 大 的 数据 集 。 第 (2) 
和 第 (3) 点 是 密切 相关 的 ,因为 在 非 参 数 背 景 下 ,人 们 是 
否 有 一 个 足够 大 的 样本 取决 于 出 现 了 多 少 协 变量 。Sil- 
verman(1986 , 见 表 4.2 ,p. 94 ) 对 为 得 到 准确 的 非 参 数 估 
计 而 要 求 的 样本 大 小 和 协 变量 个 数 之 间 的 关系 提供 了 


一 个 非常 好 的 说 明 。 我 们 使 用 术语 “ 半 和 参数 ”( semipara- 
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metric) 来 表示 一 种 不 要 求 研究 者 对 待 估 对 象 的 某 一 部 分 设 定 一 个 参数 函数 形 
式 但 要 求 对 剩余 部 分 进行 参数 假定 的 统计 技术 。 

如 上 所 述 ,相对 于 通常 使 用 的 参数 模型 ,在 本 书 中 介绍 的 非 参 数 方法 具有 
对 函数 形式 ( 如 回归 或 条 件 概 率 函数 ) 施 加 更 少 约束 性 假定 的 优点 。 然 而 ,可 供 
选择 的 方法 可 能 通过 放松 在 传统 参数 背景 下 的 约束 性 假定 而 得 到 。Manski 
(2003) 和 他 的 合作 者 采用 了 这 样 一 种 方法 来 考虑 一 些 参数 不 能 被 识别 的 概率 
或 回归 模型 。 对 识别 参数 不 是 施加 过 于 强 的 假设 ,对 这 些 参 数 找 到 可 行 的 区 间 
边界 通常 是 可 能 的 。 当 边界 相对 较 紧 ,也 就 是 说 , 当 可 行 的 区 间 非 常 窗 时 ,人 们 
几乎 可 以 识别 这 些 参 数 。 然 而 ,这 个 令 人 兴奋 的 探索 方向 超出 了 本 书 的 范畴 ， 
因此 我 们 推荐 感 兴趣 的 读者 参考 Manski(2003 ) 的 优秀 专著 ;也 可 参见 Manski 
和 Tamer( 2002 ) ,Imbens 和 Manski (2004 ) , Honoré 和 Tamer(2006 ) 的 著作 以 及 
其 中 的 参考 文献 。 

在 过 去 的 几 十 年 间 , 非 参数 和 半 参 数 方法 已 经 引起 了 许多 统计 学 家 的 关 
注 , 这 一 点 由 统计 学 家 所 写 的 大 量 教材 可 以 得 到 证 实 ,其 中 包括 Prakasa Rao 
(1983 ) ,Devroye 和 Gyorfi( 1985 ) , Silverman ( 1986 ) , Scott ( 1992 ) , Bickel, Klaas- 
sen , Ritov 和 Wellner( 1993 ) , Wand 和 Jones( 1995 ) , Fan 和 Gijbels ( 1996 ) , Simo- 
noff( 1996 ) , Azzalini 和 Bowman ( 1997 ) , Hart ( 1997 ) , Efromovich ( 1999 ) , Eubank 
(1999) , Ruppert, Carroll 和 Wand (2003 ) ,以 及 Fan 和 Yao(2005 ) 。 然 而 ,专门 
适合 应 用 计量 经 济 学 家 需要 的 教材 数目 是 相对 稀少 的 ,Hirdle( 1990 ) , Horowitz 
(1998 ) , Pagan 和 Ullah ( 1999 ) ,Yatchew(2003), 以 及 Hirdle , Müller , Sperlich 和 
Werwatz( 2004 ) 是 我 们 目前 已 知 的 其 中 一 些 。 

此 外 ,大 量 已 有 的 教材 是 从 潜在 数据 在 本 质 上 是 严格 连续 的 这 个 假定 开 
始 , 而 在 应 用 背景 下 经 济 学 家 更 常 处 理 的 是 分 类 (名 义 的 和 序数 的 ) 数 据 。 用 传 
统 的 基于 频数 的 非 参数 方法 来 处 理 离散 变量 出 现 的 情况 被 认为 是 不 令 人 满意 
的 。 基 于 Aitchison 和 Aitken( 1976 ) 关 于 平滑 离散 协 变量 的 开创 性 工作 ,我 们 最 
近 提出 了 许多 新 的 非 参数 方法 。 例 如 ,参见 Li 和 Racine(2003 ) ,Hall ,Racine 和 
Li(2004 ) , Racine 和 Li(2004) ,Li 和 Racine(2004a) ,Racine ,Li 和 Zhu(2004 ) ， 
Ouyang, Li 和 Racine ( 2006 ) Hall, Li 和 Racine ( 2006 ) Racine, Hart 和 Li 
(2006) , Hsiao, Li 和 Racine(2007) ,以 及 Li 和 Racine(2008 ) 。 在 本 书 中 ,我们 
在 一 个 统一 的 框架 内 强调 适用 于 一 个 应 用 经 济 学 家 所 能 遇 到 的 广泛 的 数据 类 
型 (连续 .名 义 和 序 数 ) 的 非 参 数 技术 。 

本 书 的 另 一 个 重要 特点 是 它 强 调 在 潜在 不 相关 变量 出 现时 非 参 数 估 计量 
的 性 质 。 已 有 的 核 方法 处 理 ,尤其 是 带宽 选择 方法 假定 所 有 变量 是 相关 的 。 例 
如 ,已 有 的 插入 或 交错 鉴定 处 理 方法 假定 在 一 个 回归 模型 中 所 有 协 变量 是 相关 


前 言 


的 ,也 就 是 说 ,所 有 协 变量 都 有 助 于 解释 结果 ( 即 被 解释 变量 ) 的 变化 。 然 而 , 当 
这 种 情况 不 成 立时 ,已 有 的 结果 如 收敛 速度 和 带宽 表现 则 不 再 成 立 。 例 如 , 参 
见 Hall 等 (2004) ,Hall 等 (2006) ,Racine 和 Li(2004) ,Li 和 Racine(2004a) 。 我 
们 认为 这 是 有 效 地 进行 非 参数 估计 的 一 个 非常 重要 的 方面 ,如 果 应 用 者 想 灵活 
地 运用 这 些 工 具 就 必须 认识 到 这 个 事实 。 

本 书 是 以 选修 了 非 参 数 和 半 参 数 方法 的 研究 生 课 程 的 学 生 为 对 象 ,他 们 对 
经 济 学 和 其 他 社会 科学 等 应 用 领域 感 兴趣 。 理 想 的 先 修 课程 可 能 包括 一 门 数 
理 统计 的 课程 和 一 门 参 数 计 量 经 济 学 的 课程 ,其 层次 相当 于 Creene(2003 ) 和 
Wooldridge(2002) 。 我 们 也 想 让 这 本 书 作为 参考 服务 于 更 为 广泛 的 读者 群 , 包 
括 应 用 研究 者 和 那些 希望 熟悉 这 个 领域 的 人 。 

本 书 的 五 个 部 分 组 织 如 下 :第 1 部 分 涵盖 了 独立 数据 的 密度 和 回归 函数 的 
非 参 数 估 计 , 其 重点 被 放 在 混合 的 离散 和 连续 数据 类 型 ;第 2 部 分 再 次 处 理 了 
独立 数据 的 各 种 半 参 数 模型 ,包括 局 部 线性 模型 .单一 指数 模型 .可 加 模型 . 变 
系数 模型 审查 模型 以 及 样本 选择 模型 ;第 3 部 分 处 理 了 一 系列 一 致 模型 设 定 检 
验 ; 第 4 部 分 研究 了 近邻 和 序列 方法 ;第 5 部 分 考虑 了 工具 变量 模型 联 立 方程 
模型 以 及 面板 数据 模型 的 核 估 计 , 并 且 把 以 前 各 章 的 结果 扩展 到 弱 依 赖 数 据 的 
背景 中 。 

第 1 部 分 中 的 多 数 结 果 都 给 出 了 严格 的 证 明 ,而 其 余部 分 的 很 多 结果 给 出 
了 证 明 的 要 点 。 作 为 背景 知识 的 统计 概念 在 附录 中 给 出 。 

一 个 R 软件 包 (R 开发 核心 团队 (2006) ) 可 供 使 用 而 且 可 以 直接 从 http:// 
www. R-project. org 得 到 , 它 能 运行 很 多 在 第 1 .第 2 部 分 讨论 的 方法 以 及 一 些 在 
第 3 第 4 第 5 部 分 讨论 的 方法 。 它 还 包含 了 本 书 中 使 用 的 一 些 数据 集 , 也 包括 
了 一 个 使 读者 很 容易 运行 新 的 关于 核 检 验 和 核 估计 量 的 函数 。 

习题 出 现在 每 章 的 末尾 ,并且 为 多 数 问 题 提 供 了 详细 的 提示 ,鼓励 想 熟练 
掌握 内 容 的 学 生 做 尽 可 能 多 的 习题 。 因 为 一 些 提示 可 能 几乎 很 简单 地 给 出 问 
题 ,我 们 强烈 推荐 想 掌握 技术 的 学 生 不 要 先 参考 提示 再 做 题 。 

我 们 从 提供 指导 、 灵 感 或 者 使 本 书 成 为 可 能 的 奠定 基础 的 许多 人 那里 受益 
良 多 。 全 部 列 出 他 们 来 是 不 可 能 的 。 然 而 ,我 们 想 请 每 一 个 已 经 以 某 种 方式 为 
这 本 书 做 出 贡献 的 人 在 它 完 成 时 与 我 们 一 起 共同 享受 一 种 个 人 意义 上 的 成 
就 感 。 

在 此 ,我 们 想 感 谢 普林斯顿 大 学 出 版 社 的 员工 ,他 们 的 名 字 是 Peter Dough- 
erty „Seth Ditchik „Terri O'Prey 和 Carole Schwager ,感谢 他 们 在 这 个 过 程 中 细致 和 
专业 的 指导 。 

我 们 也 想 对 许多 基金 机 构 表 达 我 们 深 深 的 感激 ,感谢 他 们 对 资助 构成 本 书 


XX 


非 参 数 计量 经 济 学 


” m 加 x 济 s m N È 


核心 的 研究 的 慷慨 支持 。 李 奇 尤 其 想 感谢 来 自 加 拿 大 社会 科学 和 人 类 研究 委 
员 会 (SSHRC) 、 加 拿 大 自然 科学 和 工程 研究 委员 会 (NSERC) ,得克萨斯 A&M 
大 学 私人 研究 中 心 以 及 布什 学 院 经 济 学 项 目的 支持 。 拉 辛 想 感谢 来 自 SSHRC, 
NSERC , 雪 城 大 学 政策 研究 中 心 以 及 美国 自然 科学 基金 (NSF ) 的 支持 。 

我 们 也 想 感谢 在 麦克 马 斯 特大 学 、 雪 城 大 学 、 得 克 萨 斯 AGM 大 学 、 加 利 福 
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在 社会 科学 领域 ,概率 密度 函数 (PDF ) 和 累积 分 布 
函数 (CDF ) 的 估计 是 数据 分 析 的 基础 。 检 验 两 个 分 布 
(或 其 矩 ) 的 相同 可 能 是 所 有 数据 分 析 中 最 基本 的 检验 。 
例如 ,经 济 学 家 把 大 量 的 注意 力 用 于 研究 收入 分 布 以 及 
它们 在 不 同 地 区 和 时 间 如 何 变化 。 概 率 密 度 函 数 和 累 
积分 布 函 数 不 仅 是 人 们 通常 直接 关注 的 对 象 ,而 且 它 们 
的 估计 也 是 其 他 对 象 建 模 的 重要 基石 ,如 条 件 均 值 ( 即 
“回归 函数 ”) ,这 些 对 象 可 直接 使 用 非 参 数 或 半 参 数 方 
法 建 模 ( 条 件 均值 是 条 件 概率 密度 函数 的 函数 ,而 条 件 
概率 密度 函数 本 身 是 无 条 件 概率 密度 函数 的 一 个 比 
值 )。 掌 握 概率 密度 函数 非 参 数 估计 的 基本 原理 后 ,在 
第 2 章 介 绍 的 数据 分 析 的 重要 内 容 , 即 条 件 均 值 函 数 的 
非 参 数 估计 ,将 以 一 种 相当 自然 的 方式 展开 。 认 真 学 习 
第 1 章 介绍 的 方法 对 理解 后 面 章节 出 现 的 内 容 将 是 非常 
有 帮助 的 。 

我 们 在 1. 1 节 到 1.3 节 以 单 变量 概率 密度 函数 的 估 
计 开 始 ,1.4 节 和 1.5 节 转 向 单 变量 累积 分 布 函 数 的 估 
计 ,接着 在 1.6 节 到 1.8 节 介 绍 更 一 般 的 多 变量 情况 。 
1.9 节 到 1. 12 节 介 绍 渐 近 正 态 性 (asymptotic normality ) 、 
一 致 收敛 速度 (uniform rates of convergence ) 和 偏 误 减少 
方法 (bias reduction methods), 1.13 节 对 这 方面 的 应 用 
做 了 许多 阐述 ,而 1. 14 节 是 一 些 理论 和 应 用 的 习题 。 

我 们 现在 讨论 如 何 估计 一 个 随机 变量 的 概率 密 
度 函 数 户 (x*) 。 为 了 记号 简单 ,我 们 省 略 下 标 开 并 只 用 
A(x) 表 示 菩 的 概率 密度 函数 。 在 本 章 中 讨论 的 概率 密 
度 盟 数 核 估 计 的 一 些 处 理 参考 了 Silverman ( 1986 ) 和 
Scott( 1992 ) 两 本 优秀 著作 。 


3 


非 参数 计量 经 济 学 


3 > R v a = E 


1.1 单 变量 密度 估计 


为 了 更 好 地 理解 人 们 为 什么 会 考虑 使 用 非 参数 方法 来 估计 概率 密度 函数 ,我 
们 先 从 概率 密度 函数 参数 估计 的 一 个 说 明 性 的 例子 开始 。 

例 1.1 假定 ,X,,…,X, 独立 同 分 布 (i.i.d. ), 取 自 一 个 均值 为 方差 
为 e 的 正 态 分 布 ,我们 打算 估计 这 个 正 态 分布 的 概率 密度 函数 f(x) 。 

根据 假定 ,f(x) 有 一 个 已 知 的 参数 函数 形式 (如 单 变量 正 态 分 布 ), 且 


f(x) = (270") exp | - > (x -u)’/o ] ,其 中 均值 人 = E(X) 和 方差 o° = 


E[(X-E(X))°] =var(T) 为 仅 有 的 待 估 未 知 参数 。 我 们 可 以 通过 下 面 的 极 大 
似 然 方法 估计 jw 和 oo”。 在 独立 同 分 布 (i.i.d. ) 的 假定 下 ,XX ,X,,…,X, 的 联合 
概率 密度 函数 是 单 变量 概率 密度 函数 的 简单 乘积 , 它 可 被 写 为 





(X;-a)2 1 ` 
l = l i (Xp 


党 ，… = "A 
f( X, ) l! s e (mng) 


这 是 以 观测 到 的 样本 为 已 知 条 件 , 取 对 数 得 到 对 数 似 然 函数 
Llp,0°)= Inf(X,,--- X. u?) 





n n 2 1 = 2 
> n(27) z Ino JE. 3 (X, - #) 


最 大 似 然 方法 在 给 定 的 分 布 假 设 下 ,通过 选择 相应 参数 ,使 得 我 们 手中 观测 到 
的 样本 出 现 的 可 能 性 最 大 。 因 此 , 似 然 函 数 ( 或 者 其 一 个 单调 变换 ,例如 取 对 
数 ) 表 示 了 给 定 观测 到 的 样本 下 人 A o 取 不 同 值 的 合理 性 。 然 后 我 们 最 大 化 
关于 这 两 个 未 知 参数 的 似 然 函数 。 
对 数 似 然 函数 最 大 化 的 一 阶 必要 条 件 是 9L(p,0)/op=0 和 9 Llu, o?) 
90 ”=0。 解 关于 这 两 个 未 知 参 数 u 和 oo” 的 一 阶 条 件 得 
ñ = — Xx, 和 六 = 二 和 (X, - å)’ 

EER AA ó 分 别 是 六 和 o? 的 最 大 似 然 估 计量 ,并 且 f(x) 的 相应 估计 量 是 

a _ ] 1 x 2 

J(#) = lm exp| 2 A | 


当然 , E fa # 9k A BJ “ Ba 3Ë tB W 2 B& ” ° 就 是 在 估计 之 前 分 析 者 必须 为 待 
估 对 象 设 定 正确 的 参数 函数 形式 。 仔 细 想 一 想 ,参数 方 法 在 某 种 程度 上 是 循环 





* “PEZAR” (Achilles heel) 3 Ë # I BB 18 ,意思 是 “唯一 致命 的 弱点 ” 。 一 一 译 者 注 
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论证 的 ,因为 我 们 最 初 准备 估计 一 个 未 知 的 密度 函数 ,但 是 却 必 须 首 先 假定 密 
度 函 数 的 形式 实际 上 是 已 知 的 (当然 ,已 知 的 函数 形式 里 包含 一 些 未 知 的 参 
数 )。 由 于 已 经 把 我 们 的 估计 置 于 密度 函数 形式 已 知 的 假定 之 上 ,因此 我 们 自 
然 会 遇 到 参数 模型 被 “ 误 设 ”的 可 能 性 , 即 与 抽样 数据 的 总 体 不 一 致 。 例 如 ,在 
上 面 的 例子 中 假定 站 取 自 一 个 正 态 分 布 总 体 , 我 们 实际 上 施加 了 许多 潜在 很 强 
的 约束 性 假定 :对 称 (symmetry) , 单 峰 ( uni-modality ) ,单调 递减 远离 峰值 ( mono- 
tonically decreasing away from the mode) 等。 如 果真 实 的 密度 事实 上 是 非 对 称 或 
者 拥有 多 峰 , 或 是 非 单调 远离 峰值 ,那么 这 种 分 布 正 态 性 假定 可 能 为 真实 的 密 
度 提供 了 一 个 误导 性 的 特征 ,并 且 可 能 因此 产生 错误 的 估计 和 导致 不 合理 的 
推断 。 

这 时 许多 读者 将 很 可 能 指出 ,由 于 已 经 估计 了 一 个 参数 概率 密度 函数 ,人 
们 能 够 检验 这 个 分 布 的 基本 假定 的 有 效 性 。 当 然 ,我们 完全 认可 这 种 观点 。 然 
而 ,通常 拒绝 一 个 分 布 假 定 并 不 能 够 提供 任何 清晰 的 其 他 选择 。 也 就 是 说 ,我 
们 可 以 拒绝 正 态 性 假定 ,但 是 这 种 拒绝 使 得 我 们 回 到 起 点 ,只 是 排除 了 众多 候 
选 分 布 中 的 一 个 。 基 于 这 种 背景 ,研究 者 可 以 考虑 采用 非 参 数 方法 替代 。 

非 参 数 方法 设法 避 开 了 在 估计 之 前 需要 设 定 参 数 函 数 形式 所 产生 的 问题 。 
它 不 是 假定 人 们 知道 待 估 对 象 的 准确 函数 形式 ,而 是 假定 它 满足 一 些 规律 条 
PF ,例如 平滑 (smoothness) 和 可 微 (differentiability ) 。 然 而 ,这 不 是 没有 代价 的 。 
通过 对 概率 密度 函数 的 函数 形式 施加 比 参数 方法 更 少 的 结构 , 非 参 数 方法 需要 
更 多 的 数据 才能 达到 与 正确 设 定 的 参数 模型 相同 的 精确 度 。 在 本 书 中 我 们 的 
关注 点 是 被 称 为 “ 非 参 数 核 估计 量 ”( nonparametric kernel estimators ) 的 一 系列 
估计 量 (“ 核 函数 ”只 是 一 个 加 权 函 数 ) ,尽管 在 第 14 章 和 第 15 章 我 们 提供 了 包 
括 近 邻 和 序列 方法 的 不 同 的 非 参 数 方法 。 

在 进行 非 参 数 密度 估计 方法 的 理论 分 析 之 前 ,我 们 首先 考虑 估计 抛 硬币 时 
正面 出 现 的 概率 这 个 常见 例子 , 它 跟 一 个 累积 分 布 函数 的 非 参 数 估计 紧密 相 
关 。 这 将 依次 把 我 们 引入 一 个 概率 密度 函数 的 非 参数 估计 。 

例 1.2 假定 我 们 有 一 枚 硬币 (可 能 是 不 均匀 的 ) ,我 们 想 估 计 抛 这 枚 硬币 
并 且 使 得 正面 朝 上 的 概率 。 令 p = P(H) 表 示 ( 未 知 的 ) 得 到 正面 的 总 体 概 率 。 
采用 一 个 相对 频率 方法 ,我 们 将 把 这 枚 硬币 抛 n 次 ,计算 在 n 次 试验 中 正面 出 
现 的 频率 ,并 且 按 照 下 式 计 算 相 对 频率 


b = 二 | 正面 出 现 的 次 数 | (1.1) 


这 提供 了 p 的 一 个 估计 。 定 义 于 式 (1.1) 的 户 经 常 被 叫 作 p 的 “频率 估计 量 ” 
( frequency estimator) ,并 且 它 也 是 p 的 最 大 似 然 估 计量 (见习 题 1.2) 。 当 然 , 估 
计量 户 是 完全 非 参数 的 。 直 观 地 ,人 们 将 期 望 , 如 果 足够 大 ,那么 万 应 该 “ 接 
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近 "p。 事 实 上 ,人 们 容易 证 明 广 的 均 方 误差 (MSE) 由 下 式 给 出 (见习 题 1.3) 
MSE(p) EE[(p -p)°] = POR 

因此 当 n— e 时 MSE(P) 一 0, 这 可 被 称 作 户 在 均 方 误差 上 收敛 于 p; 参 见 附录 A 
对 各 种 收敛 形式 的 定义 。 

我 们 现在 讨论 如 何 得 到 的 累积 分 布 函 数 的 估计 量 ,我 们 用 F(x) 来 表示 。 
累积 分 布 函 数 被 定义 为 

F(x) = P[X <x] 

X,,… X, Ah rs] yfi A E BEOL A Aa F(:)), ANIRE F ARA 

计 F(x) 


F.(z) = 一 |X < x 的 次 数 | (1.2) 


方程 (1.2) 有 一 个 很 好 的 直观 解释 。 回 到 我 们 抛 硬 币 的 例子 ,如 果 硬 币 满 
是 当 我 们 抛 它 时 得 到 正面 的 概率 等 于 F(x)(F(x) 未 知 ) ,并 且 如 果 我 们 把 数据 
EX... X. 看 作 把 硬币 抛 n 次 ,如 果 X《,<x, 我 们 说 正面 出 现在 第 i 次 试验 , 那 
Z P(H) =P(X; <x) =F(x)。 我 们 所 熟悉 的 P(H) 的 频率 估计 量 等 于 正面 出 
现 的 次 数 除 以 试验 次 数 : 


P(H) = BBS L Liy < ;的 次 数 | = F,(x) — (1.3) 


因此 ,我 们 把 式 (1.2) 叫 作 (x) 的 频率 估计 量 。 正 如 以 前 当 估 计 PCH) 
时 ,直觉 上 我 们 希望 当 n 变 大 时 , 户 (有 7) 应 该 是 P() 的 一 个 更 准确 的 估计 。 类 
似 的 推理 ,人 们 将 希望 当 n 一 % BF, F, (x) 应 该 是 F(x) 的 一 个 更 准确 的 估计 。 
的 确 ,人 们 能 够 很 容易 证 明 在 均 方 误差 上 F(x) 一 F(x) ,这 意味 着 当 n-，% 时 
F(x) 在 概率 和 分 布 上 收敛 于 F(x)。 在 附录 A 中 我 们 介绍 了 均 方 误 差 收敛. 概 
率 收敛 ,分布 收 人 敏和 几乎 确定 收敛 的 概念 。 可 以 很 容易 地 证 明 按 这 些 不 同 收 剑 
概念 的 任 一 种 ,F(x) 均 收敛 于 (x)。 这 些 收敛 的 概念 是 必要 的 ,因为 很 容易 
证 明 F.(*) 的 普通 极限 不 存在 , 即 limF,(x) 不 存在 (见习 题 1.3, 其 中 给 出 了 普 
通 极限 的 定义 ) 。 这 个 例子 说 明了 引入 新 的 收敛 模式 概念 的 必要 性 ,例如 按 均 
方 误差 收敛 和 按 概率 收敛。 

现在 我 们 考虑 对 函数 形式 不 做 参数 假定 时 如 何 估计 概率 密度 函数 f(x) 这 
个 问题 。 从 f(x) 的 定义 ,我 们 有 


f(x) = ŠF(a) (1.4) 


D 在 本 章 我 们 只 考虑 二 是 连续 变量 的 情形 。 我 们 在 第 3 章 和 第 4 章 才 处 理 艺 是 离散 的 情况 。 
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根据 式 (1.2) 和 式 (1.4), f(x) 的 一 个 显而易见 的 估计 量 是 了 
F (x +h) - F.(x - h) 
f(x) = — (1.5) 


其 中 4 为 一 个 小 的 正 的 增 量 。 
把 式 (1.2) 代 入 式 (1.5) ,我 们 得 到 


有 (x) = Gl Xe AARE a -h,e +h] 的 次 数 | (1.6) 
如 果 我 们 定义 一 个 由 下 式 给 出 的 均匀 核 函 数 


1⁄2 lazig i 
k(z) = É, J. z 
(z) 网 J (1.7) 
那么 很 容易 看 出 由 式 (1.5) 给 出 的 f(x) 也 可 以 被 表示 为 


(1.8) 





z l — ,/X, - x 
run "ky E: ) 

等 式 (1.8) 被 叫 作 均 匀 核 估计 量 , 因 为 由 式 (1.7) 定 义 的 核 函数 k(，*) 对 应 
着 均匀 概率 密度 函数 。 一 般 地 ,我 们 把 k(:) 称 为 核 沙 数 并 且 把 h 称 为 平滑 参数 
(或 者 又 称 为 带宽 或 窗 宽 ) 。 式 (1.8) 有 时 被 称 作 “朴素 "(naive) 核 估计 量 。 

事实 上 在 这 个 背景 下 人 们 会 对 核 阻 数 (… ) 使 用 许多 其 他 可 能 的 选择 。 例 
如 ,人 们 可 以 使 用 下 面 给 出 的 标准 正 态 核 

Wy = i (1.9) 

这 类 估计 量 能 够 在 由 Rosenblatt( 1956 ) 最 早 发 表 的 关于 核 密度 估计 的 论文 中 找 
到 ,而 Parzen(1962) 证 明了 跟 这 类 估计 量 有 关 的 许多 性 质 ,并 且 为 了 得 到 更 有 
效 的 估计 量 放松 了 非 负 性 ( nonnegativity ) 的 假定 。 出 于 这 个 原因 ,这 种 方法 有 
时 被 称 作 “Rosenblatt-Parzen 核 密 度 估 计 ”。 

我 们 将 简短 地 证 明定 义 于 式 (1.8) 的 核 估计 量 f(x) 是 f(x) 的 一 致 估计 量 ， 
只 要 其 构成 来 自任 何 一 般 非 负 有 界 核 聘 数 k(:) 且 满足 


(i) [Cw) a =1 
(ü) kle) = 机 一 地 (1.10) 





(iii) vk(v)dv = K, < % 


D 回忆 函数 g(x) 导数 的 定义 是 dg(z)/dx = lim + -8(*) 或 者 等 价 地 ,dg(x)/dx = 


. g(x +h) - g(x - h) 
=: 2h ° 
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注意 对 称 条 件 (ii) 意味 着 [vk(v) dv = 0。 根据 一 致 性 ,我 们 有 在 概率 上 f(x) 一 


f(x) (在 概率 上 收敛 的 定义 见 附录 A)。 注 意 定义 于 式 (1.10) 的 k(:) 是 (对 称 
的 ) 概率 密度 函数 。 至 于 最 近 有 关 非 对 称 核 的 核 方法 研究 ,参见 Abadir 和 
Lawford( 2004 ) 。 

为 定义 各 种 收敛 模式 ,我 们 首先 引入 关于 向 量 的 “ 欧 几 里 得 范 数 ”( 欧 几 里 
得 长 度 ,Euclidean length) 的 概念 。 给 定 一 个 g xl p] BL x = (xx ，…x,) e R“, 
我 们 使 用 | x | 来 表示 x 的 欧 几 里 得 长 度 , 它 由 下 式 定义 

ET 

当 g=1( 标 量 ) 时 , | x | 就 是 x 的 绝对 值 。 

在 附录 中 我 们 讨论 了 符号 0(')( “大 0”) 和 o(')( “小 0”)。 令 oa 为 非 随 
机 序列 。 如 果 1la,1l<Cn” 对 所 有 足够 大 的 都 成 立 ,其 中 和 (C(>0) 是 常数 ， 
则 我 们 说 a, =o(m)。 类 似 地 ,如 果 当 mn 一 时 ,a,/n" 一 0, 则 我 们 说 a, = 
ol(n”)。 我 们 现在 准备 证 明 (x) 具有 均 方 误差 一 致 性 。 

定理 1.1 “X X,,- X, 表示 某 三 阶 可 微 的 概率 密度 函数 f(x) 的 独立 同 分 
布 观测 值 ,并 令 /" (x) 表 示 f(x) 的 第 s 阶 导数 (s =1,2,3)。 今 x 是 在 支撑 上 
的 一 个 内 点 ,并 令 f(x) 由 式 (1.8) 定 义 。 假 定 核 函数 k(.) 有 界 而 且 满 足 (1.10)。 
同时 , 当 n 一 w% 时 ,有 hh 一 0 和 nh 一 % 成 立 ,那么 


MSE(f(x)) = Fief (z) )° $ E +o(h + (nh)") 
= O(h' + (nh) `') (1.11) 


其 中 心 = [vk(v)dv,x = [P (v)dv, 并 且 对 1=0,1,2,3, sup |f” (£) | < = ,其 
《esS(X) 


中 S(X) 表 示 大 的 支撑 ， H f|v’k(v) ld <æ, 


定理 1. 1 的 证 明 : 
MSE(f(x))= E|[f(x) -f(x)]°]| 
= var(f(x)) + [E(f(x)) - f(x) ]° 
= var(f(x)) + [bias(f(x))]’ 
我 们 将 分 别 展 开 偏 误 项 bias(f(x) ) 和 方差 项 var( f(x) ) 。 
为 计算 偏 误 项 ,我 们 需要 Taylor 展开 公式 。 对 一 个 m 阶 可 微 的 单 变量 函数 
g(x) ,我 们 有 


g(x) =g(x0) +g (x)(x — zo) +g” 


(xo) (x — x0) 十 … 


a ze x > 8 f] 


1 ` 5 1 
(m-i 


其 中 eg (x) =E P: 
偏差 项 由 下 式 给 出 : 
bias(f(z)) = Ef- PLE =) j-r) 
i ng[#(~ <)] -AY 
( 依 同 分 布 ) 
h fA (Z 


+ 





,3E H. £ IE x 与 xu 之 间 。 





x, — x 


二 一 jd - f(x) 


= h` [G + hv)k(v)hdv - f(x) 
(变量 变换 , x — x = hv) 


" [Ia +f (x)hv + > D(x)hiv + O(h')|k(s)de - f(x) 


= [f +0 + ËS® (a) fk) do + O?) }- (a) 
(由 式 (1. 10)) 
= BSO Ca) [Oa + O(h°) 
其 中 OC NOR B 


(1/31)h'! Jo ako) < Ch’ | | vk(v) | dv = O(h°) 


其 中 C 是 一 个 正 的 常数 ,并 且 * 位 于 x 与 x+hv 之 间 。 


-D Caa) (x = x)" +—g' (£) (z - x+)” 
m! 
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kl 


R 


(1.12) 


注意 在 以 上 推导 中 我 们 假定 f(x) 是 三 阶 可 微 的 。 我 们 可 以 放松 这 个 条 件 


为 f(x) 是 二 阶 可 微 的 ,使 得 (0O(h ) 变 为 o(h) ,见习 题 1.5) 
bias(f(x)) = E(f(x)) - f(x) 
h? 2) 2 2 
= = (z) fv k(v)dv + o(h2) 
下 一 步 我 们 考虑 方差 项 ,注意 
var(f (x)) = “mr s. 


& [六 


(独立 性 ) 








Ti 


(1.139) 
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es) 


( 同 分 布 ) | 
wle EE) 
[feae - [f2] | ý 


[Affa + ho) (v)dv - [Af fcx + ho)k(9) do] 1 





" 
nh? 
-Fl [Afa +f” (E)hv]k (v)dv - OCh) } 

P a [A [E ow + 0 (nf to k (v)dv) - OCh) } 


a + @(8)| (1.14) 
nh 


其 中 k = fE w) dv. 


式 (1.12) 和 式 (1.14) 完 成 了 定理 1. 1 的 证 明 。 口 
定理 1. 1 意味 着 (根据 附录 A 中 定理 A.7) 
f(x) -f(x) = 0,(h + (nh)  ) = o,(1) 

通过 选择 = cn Ve(c>0,a >1) ,f(x) 的 估计 是 一 致 估计 所 需 的 条 件 h—0 
和 nh 一 % 是 明显 满足 的 。 最 重要 的 问题 是 在 应 用 中 c 和 a 应 该 使 用 什么 值 。 
正如 所 看 到 的 ,对 一 个 给 定 的 大 小 为 n 的 样本 ,如 果 h 很 小 ,相应 的 估计 量 将 有 
一 个 小 的 偏 误 , 代 价 是 方差 较 大 。 另 一 方面 ,如 果 h 很 大 ,那么 相应 的 估计 量 将 
有 一 个 小 的 方差 ,代价 是 偏 误 较 大 。 为 最 小 化 MSE(f(x) ) ,人 们 应 该 平衡 平方 
偏 误 和 方差 项 。h 的 最 优选 择 ( 在 最 小 化 MSE (f(x)) 的 意义 上 ) 应 该 满足 
dMSE(f(x) )/dh =0。 通 过 使 用 式 (1. 11) 很 容易 证 明 , 最 小 化 MSE (f(x) ) 首 项 
的 最 优 h 由 下 式 给 出 

h. = c(x)n "5 CL. 153 

Hp elx) = | f(x)/[xsf (x)] 1 

MSE(f(x) ) 很 明显 具有 “ 逐 点 的 "性质, 并 且 通 过 使 用 这 个 性 质 作为 窗 宽 选 
择 的 基础 , 当 在 点 x 处 估计 一 个 密度 时 我 们 会 得 到 一 个 最 优 窗 宽 。 考 察 式 (1. 15) 
中 的 ce(x) ,我 们 会 发 现 对 位 于 一 个 分 布 尾部 的 点 x 的 估计 的 最 优 窗 宽 将 不 同 于 对 
位 于 众 数 的 点 估计 的 最 优 窗 宽 。 假 定 我 们 感 兴趣 的 不 是 调整 窗 宽 以 适应 f(x) 的 
逐 点 估计 而 是 对 所 有 的 点 *, 也 就 是 对 位 于 f(: ) 支 撑 (f(x) 的 支撑 被 定义 为 满足 
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f(x) >0 的 点 x 的 集合 , 即 |x:f(x) >0| ) 上 的 所 有 点 x, 在 整体 上 调整 窗 宽 。 在 
这 种 情况 下 ,我 们 可 以 通过 最 小 化 f(x) 的 “积分 均 方 误差 "(IMSE ) 来 选择 最 优 
的 h。 使 用 式 (1. 11) 我 们 有 


IMSE(f) [ELf(x) - (a) ]’de = Ehte {Lf (x) Jda 
+k tolh + (nh) '') (1.16) 
再 次 令 ju 表示 最 小 化 式 (1. 16) 首 项 的 最 优 平滑 参数 ,我 们 利用 简单 积分 
得 到 
ha = cn"! (1.17) 


opt 


其 中 co = K eiS SUO) a] > 0 是 一 个 正常 数 。 注 意 如 果 对 ( 儿 


E)E H x Af” Ca) =0, 那 么 ,co 是 没有 很 好 定义 的 。 例 如 ,如 果 忆 均匀 分 
布 于 它 的 支撑 ,那么 ,f"" (x) =0 对 所 有 x 和 所 有 s>1 成 立 ,并且 式 (1.17) 在 这 
种 情况 下 没有 定义 。 可 以 证 明 , 在 这 种 情况 ( 即 当 是 均匀 分 布 时 ) 下 ,h,, 将 有 
一 个 等 于 n-' 的 不 同 的 收敛 速度 (参见 1. 3. 1 节 和 习题 1. 16 的 相关 讨论 )。 

上 述 结果 的 一 个 有 趣 扩 展 可 在 Zinde-Walsh (2005 ) 中 找到 ,该 文通 过 广义 
函数 和 广义 随机 过 程 考察 了 核 密度 估计 量 的 渐 近 性 质 , 并 提出 了 当 密 度 不 存在 
时 , 即 作为 局 部 加 权 函 数 ,密度 不 存在 时 ,刻画 核 密 度 估计 量 性 质 的 新 颖 结果 。 


1.2 单 变量 窗 宽 选择 :经 验 法 则 和 插入 法 


方程 (1. 17) 说 明 最 优 平滑 参数 通过 c 依赖 于 未 知 密度 函数 二 阶 导数 的 积 
分 。 在 应 用 中 ,为 了 获得 LP C) ]*dx 的 非 参数 估计 ,人 们 可 以 选择 的 一 个 


初始 “试验 值 ”( pilot value) ,然后 使 用 这 个 值 通过 式 (1. 17) 得 到 h,,,。 这 种 方法 
顾名思义 被 称 为 “ 择 人 法 ”(plug-in methods) 。Silverman(1986 ) 提出 一 种 流行 的 
选择 初始 h 的 方法 ,就 是 假定 f(x) 属 于 一 个 参数 的 分 布 族 ,然后 使 用 式 (1. 17) 
计算 h. f m, 如 果 f(x) 是 方差 为 o 的 正 态 概率 密度 函数 ,那么 


有 (x)]?dx =3/[8m' os] 。 使 用 一 个 标准 正 态 核 ,通过 式 (1. 17) ,我 们 得 


到 以 下 试验 估计 
h. e (4r) akad i (3/8)m `? ] 0 aa is 1. 06ən `! (1. 18) 


而 后 将 其 插入 | LA (x) ]*dx, 接着 使 用 式 (1. 17) 和 以 上 结果 得 到 h... MA 
法 的 一 个 不 佳 的 性 质 是 它 不 是 完全 自控 的 ,因为 人 们 需要 选择 一 个 的 初始 什 
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来 估计 | [fP )(x)] dx (参见 Marron, Jones 和 Sheather ( 1996 ) 以 及 Loader 


(1999 ) 的 进一步 讨论 ) 。 

在 大 多 数 情 况 下 ,研究 者 将 用 式 (1. 18) 本 身 作 为 窗 宽 选择 。 这 就 是 所 谓 的 
“ 正 态 推断 经 验 法则 "法 ,由 于 它 是 对 一 个 特定 分 布 族 的 最 优 窗 宽 ( 在 本 情况 中 
是 正 态 族 ) ,如 果 潜 在 分 布 接近 于 一 个 正 态 分 布 ,那么 将 会 得 到 好 的 结果 ,并 且 
出 于 探索 的 目的 它 当 然 有 计算 上 的 吸引 力 。 在 应 用 中 ,o 被 1X, 上 "的 样本 标准 
差 代 替 ,而 Silverman( 1986 , p. 47 ) 提 议 使 用 一 个 更 稳健 的 分 散 程度 测量 指标 , 即 
用 4 代替 o, 这 一 “适应 性 的 "(adaptive) 分 散 程 度 指标 由 下 式 给 出 : 

A = min( 标 准 差 ,四 分 位 和 矩 /1.34) 

为 了 选择 适合 样本 数据 的 窗 宽 h, 我 们 现在 把 注意 力 转向 讨论 完全 自动 或 

者 “数据 驱动 "( data-driven) 的 选择 方法 。 


1.3 单 变 量 窗 宽 选 择 :交错 鉴定 法 


理论 和 实践 都 说 明 , 非 参数 核 估 计量 对 核 函数 的 选择 相对 不 敏感 。 然 而 ， 
非 参 数 核 估 计量 对 窗 宽 选 择 是 敏感 的 。 由 不 同窗 宽 得 到 的 潜在 分 布 甚至 具有 
完全 不 同 的 性 质 。 如 果 核 方法 仅 被 用 于 “探索 的 "目的 ,那么 人 们 可 以 先 选择 一 
个 小 的 大 值得 到 一 个 光滑 程度 不 高 的 密度 估计 ,并 让 眼睛 赁 直觉 增加 窗 宽 以 获 
得 光滑 程度 较 好 的 密度 估计 。 此 外 ,人 们 可 能 选择 六 的 一 个 取 值 范围 并 画 出 相 
应 的 密度 估计 。 然 而 ,出 于 严谨 的 分 析 和 推断 目的 ,必须 采用 被 普遍 认可 的 具 
有 最 优 性 质 的 窗 宽 选择 方法 。 人 们 把 窗 宽 选 择 的 重要 性 类 比 于 在 函数 级 数 展 
开 中 阶 数 的 选择 ;在 近似 中 包括 的 项 越 多 ,相应 的 模型 就 变 得 越 灵 活 。 而 一 个 
核 估 计量 的 窗 宽 越 小 , 它 就 变 得 越 灵 活 。 然 而 ,增加 灵活 性 (减少 潜在 偏 误 ) 必 
然 导致 增加 可 变性 (提高 潜在 方差 ) 。 从 这 方面 来 看 ,人 们 自然 会 考虑 以 下 旨 在 
平衡 估计 的 偏 误 平 方 和 方差 的 窗 宽 选 择 方法 。 


1.3.1 最 小 二 乘 交 错 鉴 定 


最 小 二 乘 交 错 鉴 定 (]least square cross-validation ) 是 一 个 选择 平滑 参数 的 
完全 自控 的 数据 驱动 方法 ,最 初 由 Rudemo(1982 ) 、Stone( 1984 ) 和 Bawman 
(1984) 提 出 (也 可 参见 Silverman( 1986 ,pp. 48 一 51) ) 。 这 种 方法 是 基于 这 样 一 
个 选择 窗 宽 的 原则 一 一 最 小 化 相应 估计 的 积分 平方 误差 ,也 就 是 说 , 它 给 出 了 
适应 于 f(x) 的 支撑 中 所 有 % 的 最 优 窗 宽 。 

f 和 /之 差 的 平方 的 积分 是 
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& = = = $! z 3 x 3 


fL) - Ga) 'az = [F(a de - 2 | (f(x) dx + ffx) *de (1. 19) 

由 于 式 (1.19) 右 边 第 三 项 与 无关 ,因此 选择 最 小 化 式 (1.19) 等 价 于 关于 
最 小 化 

[Ay dx -2|F(2)f( x) a (1.20) 

在 第 二 项 中 ,|f(x)/(*) dx 可 被 写 为 Er[/(X) ] ,其 中 E.(*) 表示 对 X 求 期 望 而 

不 是 对 用 于 计算 f) 的 随机 观测 值 X, 求 期 望 。 因此 , 我们 可 以 用 


a Y FXO 估计 可 [CD ]( 即 用 它 的 样本 均值 代 蔡 E.) ,其 中 


f. (X,) = (1.21) 





(n : 1 )h jni (= i =) 


是 f(X,) 的 去 一 核 人 计量。 最后, 我们 通过 下 式 估计 首 项 [f(x)?dx 
[Ad = "n 392 j3 “p [z Ja 
= (1.22) 


Hp k(v) = [kt - u)du 是 从 k(:) 得 出 的 双重 卷 积 核 (twofold convolution 











kernel) 。 如 果 上 (v) =exp( -2/2)/ V27 ,一 个 标准 正 态 核 ,那么 k(v) =exp( - ° / 
4)/V47, 一 个 均值 为 0 和 方差 为 2 的 正 态 核 ( 即 正 态 概率 密度 函数 ) ,这 是 由 于 
两 个 独立 随机 变量 N(0,1) 的 和 是 随机 变量 N(0,2)。 

最 小 二 乘 交 错 鉴定 方法 选择 h 最 小 化 


CV,(h) 79393 Ea j 
DY s (2 了 (1.23) 


1ljwi,j=1 


可 通过 典型 的 值 搜寻 算法 获得 窗 宽 的 估计 。 
可 以 证 明 ,CV/(Aa) 的 首 项 是 由 下 式 给 出 的 CVjo (忽略 与 4 不 相关 的 那 一 
项 ,见习 题 1.6) 








© 这 里 我 们 强调 使 用 去 一 核 估 计量 (leave-one-out kernel estimator) 来 计算 前 面 的 E, (- ) 是 重要 的 。 
这 是 因为 期 望 算 子 假定 和 如 (JJ=1,…,n) 之 间 是 相互 独立 的 。 如 果 不 使 用 去 一 核 估 计量 ,将 不 能 采用 
交错 鉴定 法 ,见习 题 1.6(iii) 。 
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™ by w = x 


CV. (h) = B,h° + 二 (1.24) 


HEP B, = (x274) [f (x) ax | (x = fkCr) dv,« = fk? (v) dv ) ,因此 ,对 
JLE) KA x RES” (x) 不 为 零 ,我 们 有 B, > 0。 
令 h° 表示 最 小 化 CV 的 值 。 简 单 的 微 积分 可 以 证 明 h =con-”, 其 中 
co = [x/(4B,) ]' = k [SUO Pd} 
HERR SERC. 17) 中 的 h,,, 表 明 这 两 者 是 相同 的 , 即 A = hyo KEAN hoy 
最 小 化 [ELF(z) -x)]?dx, 而 如 最 小 化 ELCV/(h)], 即 CV,(h) 的 首 项 ,可 以 


很 容易 看 出 ELCV,(h) ] + [f (x) de ESEU) -Kxz)]*dx 的 另 一 种 形式 ; 因 


此 ,E[CV/(h)] + [f (a) da 也 估计 了 |[E[A(x) -Ax)]*dx。 给 定 |/ (x)?dx 与 h 
不 相关 ,人 们 将 期 望 he 与 kw 应 该 是 一 样 的 。 

令 天 表示 最 小 化 CV,(4) 的 h 值 。 给 定 CV,(h) = CV. (h) + (s. o. ) ,其 中 
(s. o. ) 表 示 ( 比 CVn(A) ) 更 低 阶 的 项 并 且 与 h A, THEN Á =h" +0,(h")， 
或 者 ,等 价 地 有 

“二 = 向 -1 一 0 依 概率 收 全 (1.25) 

直观 地 , 式 (1. 25) 很 容易 理解 ,因为 CV,(h) =CV, (h) + (s. o. ) ,因此 最 小 
化 CV,(h) 的 h 值 应 该 浙 近 地 接近 于 最 小 化 CVjo(h) 的 h; 因 此 ,我 们 期 望 在 式 
(1.25) 的 意义 上 如 与 将 彼此 接近 。Hirdle, Hall 和 Marron ( 1988 ) 证 明 
Ch -h5)/h=O,(n"'") , 它 确实 收敛 于 零 ( 依 概率 ) ,但 收敛 速度 非常 慢 。 

当 构造 如 同 在 式 (1. 23) 中 出 现 的 CV 时 ,我 们 又 一 次 强调 了 使 用 去 一 核 估 
计量 。 如 果 人 们 使 用 标准 核 估计 量 来 替代 ,最 小 二 乘 交错 鉴定 将 不 再 成 立 , 产 
Æ Á =0, J 1. 6 证 明 如 果 人 们 估计 /(X,) 时 不 使 用 去 一 核 估计 量 ,那么 h=0 
最 小 化 目标 函数 ,这 当然 违反 了 当 n 一 时 nh 一 % 的 一 致 性 条 件 。 

这 里 我 们 隐 含 地 施加 了 .2 (x) 是非 零 函数 的 约束 ,这 排除 了 f(x) 是 均匀 
概率 密度 函数 的 情况 。 事 实 上 这 个 条 件 可 以 放松 。Stone(1984) 证 明 ,只 要 
f(x) 是 有 界 的 ,那么 最 小 二 乘 交 错 鉴定 法 将 从 如 下 意义 上 选择 最 优 的 h: 


JC h) -f(x) ?dx 
inf, {[f(x,h) - f(x) ]°dx 
其 中 Alr h) &OR 284836 EEFE h 09 fa) itt, HE f(x,h) 是 对 一 
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般 h 的 核 估 计量 。 显 然 ,定义 于 式 (1.26) 的 比率 对 任何 应 该 大 于 或 等 于 1。 
因此 ,Stone(1984) 的 结果 说 明 , 交 错 鉴 定 平滑 参数 选择 在 最 小 化 积分 平方 误差 
估计 的 意义 上 是 渐 近 最 优 的 。 在 习题 1. 16 中 ,我 们 进一步 讨论 即使 当 f(x) 是 
均匀 概率 密度 函数 时 ,为 什么 ho 的 直观 背景 。 


1.3.2 似 然 交错 鉴定 


似 然 交 错 鉴 定 (likelihood cross-validation ) 是 男 一 种 选择 平滑 参数 hh 的 自控 
数据 驱动 方法 。 由 于 这 种 估计 在 Kullback-Leibler 意义 上 将 接近 于 真实 密度 , 因 
此 ,这 种 方法 产生 一 个 具有 入 理论 解释 的 密度 估计 。 这 种 方法 是 由 Duin( 1976) 
提出 的 。 

似 然 交错 鉴定 选择 六 来 最 大 化 下 式 给 出 的 (去 一 ) 对 数 似 然 函 数 


L= lnL = > Inf (x,) 


其 中 f_,(X,) 是 在 式 (1.21) 中 定义 的 f(X,) 的 去 一 核 估计 量 。 似 然 交 错 鉴 定 的 
主要 问题 是 它 受 f(x) 尾 部 行为 的 严重 影响 ,并 且 当 使 用 普通 核 函数 时 ( 见 Hall 
(1987a,1987b) ) 对 厚 尾 分 布 会 引起 不 一 致 的 结果 。 出 于 这 个 原因 , 似 然 交错 鉴 
定 法 在 统计 文献 中 已 经 很 少 引起 注意 。 

然而 , 似 然 交 错 鉴 定 法 可 能 对 某 类 标准 分 布 的 估计 效果 会 很 好 ( 即 瘦 尾 ) 。 
在 1.3.3 节 当 我 们 比较 不 同窗 宽 选 择 方法 对 相应 密度 估计 的 影响 时 ,我 们 考虑 
似 然 交错 鉴定 的 表现 ,并 且 在 1. 13 节 中 我 们 考虑 实证 应 用 。 


1.3.3 数据 驱动 窗 宽 选 择 的 一 个 实例 


图 1.1 给 出 了 根据 取 自 一 个 模拟 的 双 峰 分 布 (n =500 观测 值 ) 构 造 的 核 估 
计 。 二 阶 高 斯 ( 正 态 ) 核 始终 被 使 用 ,并 且 最 小 二 乘 交 错 鉴 定 窗 宽 选 择 的 估计 结 
果 见 图 形 左 上 部 曲线 ,其 中 hi... =0.19。 图 形 右 上 部 曲线 也 画 出 了 基于 正 态 推 
WRA (ha =0.34) 的 估计 ,图 形 左 下 部 曲线 为 一 个 低 度 平滑 估计 ( 窗 宽 为 
1/5 xh,..) ,图 形 右 下 部 曲线 为 一 个 过 度 平滑 估计 ( 窗 宽 为 5 x h...) oD 

图 1. 1 说 明 这 个 数据 集 的 最 小 二 乘 交错 鉴定 看 来 产生 了 一 个 合理 的 密度 
佑 计 ,而 经 验 法 则 推断 是 不 合适 的 ,因为 它 在 某 种 程度 上 过 度 平滑 。 极 端 过 度 
平滑 可 能 产生 一 个 单 峰 估计 , 它 完 全 模糊 了 这 个 潜在 分 布 的 真实 双 峰 特征 。 同 
时 , 低 度 平滑 引起 太 多 错误 的 峰 。 参 见习 题 1. 17 的 一 个 经 验 应 用 , 它 研究 了 低 
度 和 过 度 平 滑 对 相应 密度 估计 的 影响 。 


D 似 然 交错 鉴定 法 产生 一 个 kwe, =0. 15 的 窗 宽 , 对 这 个 数据 集 这 导致 一 个 跟 基 于 最 小 二 乘 交错 
鉴定 法 相同 的 密度 估计 。 
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最 小 二 乘 交 错 鉴定 正 态 推断 经 验 法 则 


图 1.1 使 用 最 小 二 乘 交 错 鉴 定 正 态 推断 经 验 法 则 、 低 度 平 滑 和 过 度 平滑 (m =500) 
的 混合 正 态 的 单 变量 核 估 计 
šE : 实 线 是 实际 的 密度 函数 ,虚线 是 核 估计 。 


1.4 单 变 量 累积 分 布 图 数 估计 


在 1.1 节 我 们 介绍 了 在 式 (1.2) 中 给 出 的 经 验 累 积分 布 函数 估计 量 
F,(x) ,而 习题 1. 4 证 明 它 是 F(x) 的 一 个 Vn 一 致 估计 量 。 然 而 ,这 种 经 验 的 累 
积分 布 函 数 F,(x) 是 不 平滑 的 ,因为 它 在 每 一 个 样本 实现 点 以 1/n 跳跃 。 然 


而 ,人 们 通过 积分 f(x) 能 得 到 一 个 F(x) 的 平滑 估计 。 定 义 


Pla) = | Aod = DGE =) 


其 中 G(x) = Í k(o)do 是 一 个 累积 分 布 函 数 (因为 k(，) 是 一 个 概率 密度 本 


数 , 见 式 (1.10) )。 下 一 个 定理 给 出 了 让 (x) 的 均 方 误差 。 
定理 1.2 在 Bowman, Hall 和 Prvan(1998) 给 出 的 条 件 下 ,特别 地 ,假定 
F(x) 是 二 阶 连 续 可 微 的 ,k(v) = dG6(v)/dv 是 有 界 、 对 称 和 紧 支 撑 的 ,并 且 


dF(x)/dx* 是 Holder 连续 的 ,对 某 些 0 < £ < 二 ,有 0 < h < Cn“, 3 Z 4 





(1.27) 
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g: æ 小 £ £ m 
n— e 时 ， 
MSE( Ê) = E [ P(x) - F(x)]’ 
= c (z)n ` —c(x)hn + c,(z)h' +o(h + hn") 


其 中 co(x) = F(z)(1 -F(x)),c (2) = afla) a = 2[eG(e)k(r)de,/(z) = 
dF(s)/ds,e,(s) = [(w,/2)F 2) (s)]',x, = [Ce)dn, 并 且 其 中 F” (x) = 
d'F(x)/dx' 是 F(x) 的 第 s 阶 导数 。 

证 明 :注意 E [F(x) ] =e eA 
so) fo) 


h[G() /x - hr) dv = - cmdrdx - ho) 





|] 那么 我 人 有 (| = Í) 








=- [G(v)F(x - hv)] "1". + [kF - hv) dv 


= je) FG) - F” (x)hv + (1⁄2): F®? (x) ]dv + o(h2) 


= F(x) + (1/2)k,kh F°) (x) + o(h°) (1.28) 
其 中 在 上 面 第 二 个 等 式 我 们 使 用 


- [je I 厂 Cu 
同时 注意 我 们 在 |C(v)/(x - hv) de 没有 使 用 Taylor 展开 ,因为 对 任何 m > 0 A 
jv"G(v)dv =+ wm。 我 们 首先 进行 分 部 积分 , 然后 使 用 Taylor 展开 , 因为 
je"k(v)dv 通常 是 有 限 的 。 例 如 ,如 果 k(v) 是 有 界 支撑 或 者 k(v) 是 标准 正 态 术 


函数 ,那么 对 任何 m > 0, |w"k(v) dv 是 有 限 的 。 
类 似 地 ， 
E|; [* —)| á JE (A) a: = hE (fx - hy) do 





=- [GE (wdF(s - hv) 
= 2[CCv)k(v) F(a — hv)dv 


< 2[G(v)k(x)[F(z) - F) (x)hv]dv + O(h?) 


22 


17 


23 


18 
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= Fla) 一 下 用 Ka + OC) (1.29) 
其 中 a = 2|vG(v)k(v)dv, 并 且 其 中 我 们 已 经 使 用 了 如 下 事实 
2f Gd a f dr) a diul- w al 


因为 6(… ) 是 一 个 (用 户 设 定 的 ) 累积 分 布 函数 核 函 数 。 
从 式 (1.28) 中 我 们 有 偏 误 bias[ 所 (x)] = (1⁄2)x,h F” (x) +o (h°) ,并 且 
从 式 (1.28) 和 式 (1.29) 我 们 有 


var[ F (x) ] = mvar| c[* —)] 


- [s| e(s2%2)]- [so]} 


= n` F(x)[1 - F(x)] - aaf(x)hn™ + o(h/n) 





因此 ， 
E(F(x) - F(x))” = [bias(F(x))]* + var[ F (x) ] 
= n™F(x)[1 - F(x)] + h'(x,/2)2[ F 2) (<) ]° 


- afla) + o (h° +n`'h) (1.30) 


这 完成 了 定理 1.2 的 证 明 。 口 
从 定理 1. 2 我 们 立刻 得 到 关于 下 的 积分 均 方 误差 的 如 下 结果 : 


IMSE( É) = JELEC) = F(x) ]?dz 
Ca’ -Ohw t + CK rolh tha?) (1.31) 
Hp C, = fea) dx = 0,1,2) 。 令 h, 表示 最 小 化 积分 均 方 误差 首 项 的 h 值 ,我 
们 得 到 


h, = an" 

其 中 ao = [C,Z(4C,) ] ,因此 估计 单 变 量 累积 分 布 函 数 的 最 优 平滑 参数 比 估 
计 一 个 单 变 量 概率 密度 函数 有 一 个 更 快 的 收敛 速度 (nm “与 mm ” )。 由 上 一 
n ,我 位 有 大 =O(n 2) =o(n  )。 因 此 ,根据 Liapunov 中 心 极限 定理 ,在 
分 布 上 Vn[F(x) -F(x)]—>N(0,F(x)[1 -F(x)]); WM A P5 A. 5 和 其 
他 一 些 有 用 的 中 心 极限 定理 。 

如 同 非 参 数 概率 密 度 函 数 估 计 一 样 , 非 参 数 累积 分 布 函数 的 估计 有 广泛 的 
潜在 应 用 ,虽然 它 并 未 被 广泛 使 用 。 例 如 , 它 可 被 用 于 对 没有 施加 参数 假定 的 
潜在 累积 分 布 函 数 检 验 随机 占 优 ,可 参考 Barrett 和 Donald (2003 ) 以 及 Linton, 
Whang 和 Maasoumi(2005 ) 。 
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1.5 单 变 量 累 积分 布 图 数 窗 宽 选 择 :交错 鉴定 法 


Bowman 等 (1998 ) 建议 通过 最 小 化 如 下 的 交错 鉴定 函数 为 Pa) EFE h: 
CV,(h) = È fU < _ P (ays (1.32) 


其 中 户 ,(x) = (n -D7 Y [1 5] FG) 的 去 一 估计 量 。 


Bowman 等 (1998 ) 证 明 CV, =E[ CV, ] +(s.o. ) 并 且 有 (见习 题 1.9) 
l 


n-li 





E[CV,(h)] = [ra - F)dx + fra ~ de = Éin” 


+ Ch +o(hn' + h°) (1.33) 

我 们 观察 到 式 (1.33) 与 式 (1.31) 中 给 出 的 IMSE( 天 ) 有 相同 的 首 项 。 因 

此 ,在 渐 近 性 质 上 ,通过 交错 鉴定 选择 为 户 (x) 带 来 跟 使 用 最 优 确 定性 平滑 参 

数 h, 时 可 能 产生 的 同样 的 渐 近 最 优 性 质 。 如 果 我 们 令 月 表 示 交 错 鉴 定 平滑 参 

数 , 那 么 可 以 证 明 在 概率 上 h/h, 一 1。 注 意 当 使 用 有 时 , 户 (x, 有 hh) 的 渐 近 分 布 与 
广 (x,h,) 的 一 样 (通过 使 用 附录 A 中 给 出 的 一 个 随机 等 连续 性 论证 ) , 即 


VR(P(x) - F(x)) S N(0,F(<) (1 - F(z))) (1.34) 
其 中 广 (x) 定 义 于 式 (1.27) ,但 用 及 取代 了 hh。 注 意 在 式 (1.34) 中 没有 偏 误 项 
出 现 , 因 为 bias(E(xz)) =0(h)=0(n-”) =o(n !2) ,对 概率 密度 函数 估计 不 
是 这 种 情形 。 这 里 平方 误差 项 有 比 主要 方差 项 O (n"') (BD var( Ë (xz)) = 
O(n )) 更 小 的 阶 。 
现在 把 我 们 的 注意 力 转 到 以 上 提出 的 单 变量 核 估 计量 的 扩展 ,也 就 是 多 元 
核 估 计量 上 。 我 们 在 这 一 章 仅 考虑 连续 变量 的 情况 ;我 们 在 第 3 章 和 第 4 章 处 
理 离散 数据 与 连续 和 离散 数据 混合 的 情形 。 


1.6 多 变量 密度 估计 


假定 X, ,…, 蕊 ,构成 一 个 独立 同 分 布 且 有 一 个 共同 概率 密度 函数 f(x) = 
f(x ,x;，,… ,x,) 的 g 维 向 量 (X,eRR', 某 些 qg >1)。 令 ,表示 XX 的 第 s(s=1,…,g) 
个 元 素 。 使 用 一 个 从 单 变量 核 函 数 的 乘积 构造 的 “乘积 核 函 数 ” ,我 们 用 下 式 估 
计 这 个 概率 密度 函数 f(x): 


2 1 - X, - x 
f(x) Eei = ) (1.35) 








24 


19 


25 


26 


非 参 数 计量 经 济 学 


N > a B 3 k x A @ 


Z, 








sep K| [25] x. e (TAE) ,并 且 其 中 k(…) 是 一 个 满足 式 


(1. 10) 的 单 变 量 核 函数 。 
f(x*) 的 均 方 误差 一 致 性 的 证 明 类 似 于 单 变量 的 情况 。 特 别 是 ,可 以 证 明 


bias(f(x)) = > x h f.(a) + 0 | >) (1.36) 


其 中 f(x) 是 f(x) 对 ,的 二 阶 导数 , k，= [Cv) de, 并 且 人 们 也 能 证 明 


var(f(#)) = [0 +o [ X )] = ofai) (37) 





其 中 x = fE (v) dvs 3C(1.36) MRC. 37) HUES ARER X 0818002810, BI fE 


习题 (见习 题 1.11). 
总 之 ,我 们 得 到 如 下 结果 
MSE(f(x)) = [bias(f(z))]° + var(f(x)) 


= 0( (X) + (h ") 
因此 ,如 果 当 n— e BF , max, eeh, —0 并 且 nh,…h 一 % ,那么 我 们 在 MSE 上 有 


f(x) 一 f(x)( 依 均 方 误差 收敛 ) ,这 意味 着 在 概率 上 f(x) 一 f(x)( 依 概率 收敛 ) 。 

如 同 我 们 在 单 变量 情形 中 见 到 的 ,最 优 平滑 参数 六 应 该 权衡 平方 偏 误 和 方 
差 项 , 即 对 所 有 s 有 h! = O((nh.-:h ) 一 )。 因 此 ,对 某 些 正 常数 c (s= 1,…， 
q) REIH h, = cn Ye。 在 1.3 节 讨论 的 交错 鉴定 法 能 够 很 容易 被 扩展 到 多 
变量 数据 情形 中 ,并 且 我 们 能 够 证 明 最 小 二 乘 交 叉 鉴 定 能 够 在 1.3 节 提 出 的 意 
义 上 选择 最 优 的 h,( 见 下 面 1.8 节 )。 

我 们 对 上 面 的 证 明 中 需要 的 独立 性 假定 进行 简单 评论 。 我 们 的 假定 是 ,在 
不 同 i 之 间 数 据 是 独立 的 。 注 意 对 每 一 个 分 量 X,(s =1,…,g) 没 有 限制 条 件 施 
加 于 下 标 *。 乘 积 核 仅仅 出 于 方便 被 使 用 ,并 且 当 然 不 要 求 ,在 下 标 s 之 间 是 
独立 的 。 换 句 话说 ,多 元 核 密 度 估 计量 (1.35) 是 能 够 捕获 X, 的 不 同 分 量 之 间 
的 一 般 依 赖 性 的 。 进 一 步 ,我 们 在 18 章 中 将 放松 这 个 “观测 值 之 间 独 立 "的 候 
定 , 并 且 将 看 到 上 面 所 得 到 的 所 有 结果 适用 于 弱 依 赖 数据 设 定 。 


1.7 多 变量 窗 宽 选 择 :经 验 法 则 和 插 人 法 


在 1.2 节 我 们 在 一 个 单 变 量 背 景 下 讨论 了 正 态 推 断 经 验 法 则 和 插 人 法 的 
使 用 。 这 个 单 变 量 正 态 推 断 经 验 法 则 可 直接 扩展 为 多 变量 情形 。 令 q H X, 的 
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a Ñ 迎 = R S s DÀ B 


维 数 , 可 以 对 s =1,…,g PR h, = c X, un 0 Ep X, E | X, 的 样本 标 
准 差 ,上 且 c, 是 一 个 正常 数 。 在 实践 中 ,人 们 仍然 会 遇 到 如 何 选择 c, 的 问题 。 对 
所 有 的 s=1,…,g 选择 c, =1.06 是 有 计算 上 的 优势 的 ;然而 ,这 种 选择 把 不 同 
的 ,对 称 地 对 待 。 在 实践 中 ,可 能 联合 概率 密度 函数 在 一 个 维度 ( 比如 在 x, ) 
变化 快 ,但 在 另 一 个 维度 ( 比如 在 x, ) 变化 慢 , 那 么 人 们 应 该 选择 一 个 相对 较 小 
H e, 值 (因此 一 个 小 的 hh) 和 一 个 相对 较 大 的 c, 值 (因此 一 个 大 的 h,)。 不 像 
我 们 即将 讨论 的 交错 鉴定 法 ,经 验 法 则 没有 提供 这 种 灵活 性 。 

另 一 方面 ,对 插入 法 ,f(x) 的 (平方 ) 偏 误 首 项 和 方差 首 项 必须 被 估计 ,然后 
必须 选择 hh…h, 以 最 小 化 f(x) 的 均 方 误差 首 项 。 然 而 ,f(x) 的 均 方 误差 首 项 
包括 未 知 的 f(x) 和 它 的 偏 导 函数 ,以 及 为 估计 这 些 未 知 的 函数 必须 为 每 个 变量 
选择 的 试验 窗 宽 。 如 何 最 好 地 选择 初始 的 试验 平滑 参数 在 高 维 情形 中 可 能 是 
较 复杂 的 ,并 且 据 我 们 所 知 ,在 实际 应 用 中 插入 法 没有 被 广泛 地 使 用 ,我 们 除了 
用 于 数据 分 析 探 索 外 也 不 建议 使 用 它们 。 


1.8 多 变量 窗 宽 选择 :交错 鉴定 法 


1.8.1 最 小 二 乘 交 错 鉴 定 


在 1.3.1 节 讨 论 的 单 变 量 最 小 二 乘 交错 鉴定 法 可 以 被 很 好 地 扩展 到 多 变 
量 密度 估计 情形 中 。 用 一 个 多 变量 乘积 核 取 代 式 (1.23) 中 的 单 变 量 核 函 数 , 交 
错 鉴定 法 的 目标 明 数 为 


CV,(h,,*,h,) 92 A A 


F F K,(X,,X,) (1.38) 


< A jr 


其 中 





K (t) = paž] 


AF Ky = [Lp m =) 


HEA 有 (v) 是 基于 上 (:) 的 双重 卷 积 核 (twofold convolution kernel) , J rB k( +) 是 
一 个 满足 式 (1. 10) 的 单 变量 核 阻 数 。 
习题 1. 12 表明 ,CVj(h,,…,h,) 的 首 项 由 下 式 给 出 (忽略 与 ,无 关 的 项 ) 


CV (hh,) = fI Y B,C) K | ax + -5 








(1.39) 
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w. r P # 与 = R E] = 


其 中 B, (x) = (x,/2)f, (x) 
通过 六 =a tO (s51, q) EX a, RIIA 
CV (h, h.) = i T 0 ) (1. 40) 
其 中 
Was) = [| Baa] de (1.41) 
Da Ra, 最 小 化 = (oj,…,a,) 的 值 。 在 和 用 于 单 变 量 情形 的 同样 条 件 
下 ,再 假定 f,(x) 对 所 有 的 :不 是 零 函 数 ,Li 和 Zhou (2005 ) 证 明 每 一 个 a 是 被 
唯一 定义 的 \ 正 的 ,并 且 有 限 (参见 习题 1.10)。 令 如 ，…,h 表示 最 小 化 CV 的 
his sh, io 那么 从 式 (1.40) 中 我 们 知道 h, san h S0 nA), 
习题 1.12 表明 CVjo 也 是 E[ CV/] 的 首 项 。 因 此 , 非 随机 平滑 参数 六 可 以 
被 解释 为 使 得 积分 均 方 误差 首 项 最 小 化 的 最 优 平滑 参数 。 
A 有,…,h 表示 最 小 化 CV 的 hh ,…,h, 值 。 利 用 CVj=CVjo + (s. o. ) X 
个 事实 ,我 们 能 够 证 明 有 =h +0o,(h )。 于 是 ,我 们 有 
Á -k Ë 
x s s... 1-8 依 概率 收敛 ,s = 1,…,g (1:42) 
因此 ,通过 交错 鉴定 法 选择 的 平滑 参数 跟 非 随机 最 优 平 滑 参数 有 相同 的 渐 近 最 
优 性 质 。 
注意 如 果 对 某 些 s 几乎 处 处 f,(x) =0, 那 么 B, =0 并 且 以 上 结果 不 再 成 立 。 
Stone( 1984 ) 证 明 交 错 鉴定 法 仍然 在 最 小 化 积分 平方 误差 估计 的 意义 上 最 优 地 
选择 了 hh, ,…,h,; 也 可 参见 Ouyang 等 (2006) 对 这 种 情形 的 一 个 更 详细 的 讨论 。 


1.8.2 似 然 交 错 鉴定 


多 变量 模型 似 然 交错 鉴定 法 直接 通过 最 大 化 在 1.3.2 节 给 出 的 似 然 函 数 
(多 变量 ) 得 到 ,因此 我 们 这 里 不 再 深入 讨论 。 然 而 ,我 们 需要 指出 ,尽管 执行 很 
简单 , 它 也 遇 到 跟 单 变量 情况 出 现 厚 尾 分 布 时 同样 的 缺陷 ( 即 它 在 这 种 情况 下 
有 过 度 平滑 的 倾向 ) 。 


1.9 密度 估计 量 的 渐 近 正 态 性 








在 本 节 我 们 证 明 f(x) 有 一 个 渐 近 正 态 分 布 。 最 流行 的 中 心 极 限定 理 是 在 
附录 A 的 引 理 A.3 给 出 的 Lindeberg-Levy 中 心 极限 定理 , 它 指出 在 分 布 上 


wa as > z, | = (0,0?) ,其 中 Z, 是 独立 同 分 布 ,均值 为 0, 方差 为 RE 
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s 38 ° g L S X 8 K 


Lindeberg-Levy 中 心 极限 定理 能 够 被 用 于 推导 第 7、 第 8 和 第 9 章 讨 论 的 各 种 半 
参数 估计 量 的 渐 近 分 布 ,但 它 不 能 被 用 于 推导 f(x) 的 渐 近 分 布 ,这 是 因为 (x) 
=n" Z,,, 其 中 被 加 数 Z,,，,= K,(X,,x=) 依赖 于 n( 因 为 h = h(n) ) 。 我 们 将 使 


用 附录 A 中 引 理 A.5 给 出 的 Liapunov 中 心 极限 定理 。 
定理 1.3 $X eX, 是 独立 同 分 布 的 9 维 向 量 ,其 概率 密度 函数 拟 ' ) 是 
三 阶 连续 可 导 且 有 界 的 。 令 x 是 半 支 撑 的 一 个 内 点 。 如 果 当 n— e ,h, 一 0 时 ， 


对 所 有 的 s=1,…,g, 都 有 nh,…h 一 wm ,并 且 (nhh) > hh, 一 0, 那 么 


Jahrh, F(x) -A(x) - ny hf, Ca) |E NO, «f(r)) 
证 明 :使 用 式 (1. 36) 和 式 (1. 37) ,容易 证 明 


nho [f(x) -f(x -Ey hfa Ca) | 
有 渐 近 均值 0 和 渐 近 方差 w° f(x) , 即 
VBR [j - G) - 2 Y BJ (| 
= nhh [f(x) - E(f(x))] 
+ AA EG) -Ka -EY Kifa] 
= nhh [f(x) - E(f(x))] 
+ 0( ma, Y h?) (根据 式 (1.36) ) 


= 3 (nh, eh) 2 


[可 于 
三 AA +o(1) SN(0,x'f(x)) 
只 要 我 们 能 证 明 Liapunov 中 心 极限 定理 条 件 (A. 21 ) 成 立 ,其 中 


> š (nhh) [x (Ee =) - a(K(~— =))] 


HARHA (1.37) 
> os ;' > var(2, i) = w'/(x) + o(1) 


=))] ]+ oG) 
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Pagan 和 Ullah ( 1999, p. 40 ) 证 明 式 (A.21) 在 定理 1.3 给 定 的 条 件 下 成 立 。 
Pagan 和 Ullah 使 用 的 条 件 对 某 些 5>0 有 |4(v) ”dv < o BERNIE ko) 


是 非 负 和 有 界 所 隐 含 的 ,并 且 fk (v) dv = 1, 因 为 [k(v) dv < Cfk(o)dv = C E: 
有 限 的 ,其 中 C = supk (v) ”, 口 


1. 10 一 致 收敛 速度 


到 现在 为 止 我 们 已 经 证 明 的 只 有 逐 点 的 和 积分 均 方 误差 一 致 的 (意味 着 依 
概率 相合 性 ) 情形。 在 这 一 节 我 们 扩展 逐 点 收敛 ,以 得 到 一 个 更 强 的 “一 致 相合 
性 ”( uniform consistency) 结果 。 我 们 将 证 明 非 参数 核 估 计量 是 几乎 确定 一 致 收 
S hY (uniformly almost surely consistent) ,并 且 推 导 它 们 的 几乎 处 处 一 致 收敛 速 
度 。 几 乎 处 处 一 致 收敛 意味 着 依 概率 收敛 ;然而 , 反 过 来 不 成 立 ,也 就 是 , 依 概 
率 收敛 可 能 不 意味 着 几乎 处 处 收敛 ,参见 Serfling( 1980) 的 具体 例子 。 

我 们 已 经 对 在 半 支 撑 的 一 个 内 点 证 实 了 逐 点 收 化 。 然 而 , 当 x 在 其 支撑 的 
边界 时 ,诸如 式 (1.9) 普 通 的 核 阻 数 被 证 明 可 能 不 会 产生 f(x) 的 一 致 估计 ,因此 
当 考 虑 一 致 收敛 速度 时 ,我 们 需要 排除 边界 范围 。 这 强调 了 一 般 核 估计 的 一 个 
重要 方面 ,并且 在 后 面 章节 介绍 的 许多 核 估 计量 的 动机 就 是 消除 这 类 “边界 效 
应 ”( boundary effect) 。 我 们 首先 证 明 当 x 是 在 (或 接近 ) 它 支撑 的 边界 时 ,f(x) 
可 能 不 是 妃 x) 的 一 个 一 致 估计 量 。 

考虑 是 具有 有 界 支 撑 的 单 变量 情形 。 为 了 简便 我 们 假定 Xe[0,1]。 以 
前 得 到 的 逐 点 收敛 结果 f(x) -f(x) =o,(1) 要 求 * 位 于 它 的 支撑 内 部 。 习 题 
1.13 证 明 , 对 位 于 其 支撑 边界 的 x*, MSE (f(x) ) 可 能 不 是 o(1)。 因 此 ,为 了 获 
得 位 于 其 支撑 边界 x 的 fx) 的 一 致 估计 ,可 能 需要 作 一 些 修正 。 典 型 的 修正 包 
括 使 用 边界 核 (boundary kernel ) 和 数据 反射 (data reflection ) ( W, Gasser 和 Muller 
(1979) Hall 和 Wehrly(1991) ,以 及 Scott(1992 ,pp. 148 一 149 ) ) 。 作 为 例子 , 考 


虑 x 位 于 其 最 下 边界 的 情况 , 即 *=0, 因 此 ,f(0) = (nh) Y K((X,-0)/h). 


习题 1. 13 证 明 在 这 种 情况 下 ,E[f(0)] = /(0)/2 + 0O(h) 。 因 此 ,bias[f(0)] = 
E[/(0)] -/(0) =-f(0)/2 +0(h) ,如 果 f(0) = 0( 4 /(0) > 0 Bf) ,这 将 不 收 
AF O0. 

在 文献 中 ,各 种 边界 核 被 提出 以 克服 边界 ( 偏 误 ) 问题 。 例 如 ,一 个 简单 的 
边界 修正 核 由 下 式 给 出 (假定 Xe[0,1]): 
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& < € a š ¥ kai = = 





k (2) kodo, s e [ü.h) 





k.(z,y) = 人 )' xe [h,1-h] (1.43) 


-x 
h 
m (1-xz)/h 
h (2). k(s)de, x e (1 -h,1] 
其 中 有 (: ) 是 满足 式 (1. 10) 的 二 阶 核 。 现 在 ,我们 用 下 式 估计 Ax) : 
f(x) = F h(x,X) (1.44) 


其 中 (x,X,) 是 定义 在 式 (1.43) 的 。 习 题 1.14 证 明 上 面 的 修正 边界 核 成 功 地 
克服 了 边界 问题 。 

我 们 现在 确定 对 xe SIP f(x) - f(x) 的 几乎 确定 一 致 收敛 速度 ,其 中 S 是 排 
除 X 支 撑 边 界 范围 的 有 界 集 。 在 上 面 的 例子 中 , 当 x 的 支撑 是 [0,1] 时 ,对 任意 
小 的 正 e(0 <e <1/2) 我 们 可 以 选择 S=[s,1 -a]。 我 们 假定 f(x) 在 S 上 是 有 
下 界 的 ,大 于 某 一 个 正常 数 。 

定理 1.4 在 Masry (1996b) 给 出 的 关于 了 (:) 的 平滑 条 件 下 ,并 且 假 定 
inf f(x) >ë > 0 ,我 们 几乎 确定 有 


sup! f(x ) -f(x)|= awu + 5 i) 


h 34 
定理 1.4 的 一 个 详细 证 明 在 1.12 节 给 出 。 
因为 几乎 确定 收敛 意味 着 依 概 率 收敛 ,收敛 速度 在 概率 上 也 成 立 , 即 在 与 
定理 1.4 同样 的 条 件 下 ,我 们 有 


à " _ (In(n))' 
MEUR i a+ Dw) 


使 用 式 (1.36) 和 式 (1.37) 的 结果 ,我 们 能 确定 如 下 的 收敛 速度 。 
定理 1.5 假定 Fx) 为 二 阶 导数 有 界 的 二 次 可 微 函 数 ,那么 我 们 有 


supE| [7 (x) -J(x)] | = o [ > h, + (nh,=-h,)™ ) 
证 明 :这 从 式 (1.36) WA (1.37) f$ B, E sups (x) Asup | f, (z) I (s = 


1,…,4) 都 是 有 限 的 。 口 
注意 尽管 依 均 方 误差 收敛 意味 着 依 概率 收敛 ,人 们 不 能 从 定理 1.5 推出 在 
概率 上 的 一 致 收敛 速度 。 这 是 因为 
E |sup[ f(x) -f(x)]’| # sup E[ (z) - f(x) ]° 
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P[sup | f(z) - f(x) ! > e] # supP[! f(x) - f(x)! >e] 


这 里 的 sup #l E( - ) sÀ P(:) 算 子 是 不 能 彼此 替换 的 。 

Cheng( 1997 ) 提 出 了 能 够 实现 自动 边界 修正 和 具有 一 些 典 型 最 优 性 质 的 不 
同 的 (局 部 线性 ) 密 度 估计 量 。Cheng 也 提出 了 一 种 基于 数据 的 窗 宽 选 择 量 ( 根 
据 插入 法 的 思想 ) ,并 且 证 明 无 论 在 密度 支撑 中 是 否 有 非 平 滑 边界 ,这 个 窗 宽 选 
择 量 都 是 非常 有 效 的 。 


1.11 高 阶 核 郴 数 


回忆 一 下 减少 h 会 降低 一 个 核 估计 量 的 偏 误 但 是 增加 它 的 方差 。 高 阶 核 
函数 是 用 于 减少 偏 误 同时 能 够 降低 相应 估计 量 均 方 误差 的 工具 。 许 多 流行 的 
核 隐 数 (例如 定义 于 式 (1.10) 中 的 ) 被 称 作 “ 二 阶 " 核 。 一 个 核 的 阶 ,v(v >0)， 


被 定义 为 第 一 个 非 零 矩 的 阶 。 例 如 ,如 果 [wk(w)du = 0, 但 是 [wk(u)du z 0, 


那么 上，) 被 称 作 一 个 二 阶 核 (v=2)。 因 此 一 个 一 般 的 v 阶 核 (>>2 是 一 个 整 
数 ) 必须 满足 如 下 条 件 : 


(i) [Cw au = 1 
(ii) uk(u) du =0, 1=1,..…,»y-1 (1.45) 
(iii) tC) du = x, # 0 
显然 , 当 v=2 时, 式 (1.45) 退 化 为 式 (1.10) 。 
如 果 人 们 用 一 个 v 阶 核 函 数 取 代 式 (1.35) 中 的 f(x) 的 二 阶 核 ,那么 ,与 使 
用 一 个 二 阶 核 的 情况 一 样 ,在 f(x) 是 v 阶 可 微 的 假定 下 ,以 及 假定 所 有 h, 有 相 
同 大 小 的 阶 , 可 以 证 明 
bias(f(x)) = 0 [ Sar) (1.46) 
var(f(x)) = O((nh,i-h.) ') (1.47) 
(见习 题 1. 15 ) 因此 ,我 们 有 
MSE(f(x)) = 0( Y h” + (nhh) ) (1.48) 


q 


fx) -fx) = 0,( X h + (hisa) 2) 
因此 ,通过 使 用 一 个 v 次 高 阶 核 函数 (v >2) ,能 够 把 f(x) 的 偏 误 的 阶 从 
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要 3 = &@ m = À z t 


of S) 减少 到 o | Sr), JEE h, 的 最 优 值 可 通过 平衡 平方 偏 误 和 方 


差 得 到 ,给 定 太 = 0O(n ”20 ) ,其 中 收敛 速度 现在 变 为 f(x) - f( z) = 
O (n ”et)。 假 定 Fx) 在 任何 有 限 阶 都 是 可 微 的 ,那么 人 们 能 够 选择 足够 大 
的 v, 并 且 相 应 的 速度 可 以 任意 接近 于 0,(n -2 ) 。 然 而 ,注意 对 w>2, 没 有 满足 
式 (1.45 ) 的 非 负 核 存在 。 这 必然 意味 着 ,我们 必须 指定 负 的 权重 给 某 个 范围 的 
数据 ,这 隐 含 着 人 们 可 能 得 到 负 的 密度 估计 ,这 是 一 个 明显 不 被 期 望 的 负 效 应 。 
进一步 ,在 有 限 样 本 应 用 中 非 负 二 阶 核 经 常 被 发 现 能 比 它们 相应 更 高 阶 的 核 产 
生 更 稳定 的 估计 结果 。 因 此 ,高 阶 核 函 数 主要 被 用 于 理论 的 目的 ;例如 ,在 一 个 
半 参 数 模 型 中 为 了 得 到 一 些 有 限 维 参数 的 Vn 收 钱 速度 ,人 们 经 常 必须 使 用 高 阶 
核 函数 (这 样 的 一 个 例子 见 第 7 章 ) 。 

高 阶 核 函 数 是 很 容易 构造 的 。 假 定 k(w) 围绕 零 对 称 ?, 即 (wu) = 


k( - u) ,那么 对 所 有 正 整 数 m 有 fk(u) du = 0, 作为 例子 ,为 构建 一 个 简 


单 的 四 阶 核 ( 即 >=4) ,人们 可 以 从 一 个 二 阶 核 例如 标准 正 态 核 开 始 , 在 它 的 
变量 中 设 定 一 个 多 项 式 , 并 求解 这 个 受到 和 抢 约束 的 多 项 式 的 根 。 例 如 , 令 
@(u) =(27r) “exp( -ww /2) 是 一 个 二 阶 高 斯 核 ,我 们 可 以 从 如 下 多 项 式 开 始 : 
k(u) = (a +bu°')@(u) (1.49) 
其 中 a 和 是 必须 满足 一 个 四 阶 核 条 件 的 两 个 常数 。 令 上 (Cu ) 满足 式 (1.45 ) 且 


Hiv = 4 ( fu'k(u)du = 0, = 1,3, 因 为 Ku) 是 一 个 偶 函 数 ) ,我 们 因此 仅仅 要 


RfkCu)du = 1 和 [wk(u)du = 0。 从 这 两 个 约束 条 件 ,能 够 很 容易 得 到 结果 


a =3/2 Ñ b = - 1/2。 对 于 需要 更 高 阶 核 阻 数 的 读者 ,我 们 提供 了 一 些 基于 二 阶 
高 斯 和 Epanechnikov 核 的 例子 ,它们 可 能 是 在 应 用 非 参 数 估 计 中 两 个 最 流行 的 
核 。 正 如 四 阶 单 变量 高 斯 核 由 以 下 公式 给 出 : 
_/3 l a exp( — wu /2) 
ea = ($ -pa 


š Van 
而 六 阶 单 变量 高 斯 核 由 下 式 给 出 : 
k(u) = (2-2 TEN Je 2) 
Ë 4 g“ Sr 


二 阶 单 变量 Epanechnikov 核 是 基于 对 最 小 化 核 估 计量 的 积分 均 方 误差 的 一 个 
变 分 解 的 最 优 核 ( 见 Serfling(1980 ,pp. 40 一 43 ) ) 。 单 变量 二 阶 Epanechnikov 核 


O 一 般 只 有 对 称 核 函数 被 用 于 实践 中 ,但 可 参见 Abadir 和 Lawford(2004 ) 关于 最 优 非 对 称 核 的 
近期 工作 。 
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由 下 式 给 出 : 
3 ] 
r - —u s Uu 5.0 
k(u) = eal 5 ) 
0, 其 他 
四 阶 单 变 量 Epanechnikov 核 由 下 式 给 出 : 
15 7 2 oR. 2 2 
uo = fagta zu?) (1 z). u < 5.0 
Mi 其 他 


其 中 六 阶 单 变 量 Epanechnikov 核 由 下 式 给 出 : 
wa (全 -二 +] 人 l ?)， uw < 5.0 
k(u) = 4.5 64 32 320 
0, 其 他 
图 1.2 画 出 了 上 面 定 义 的 二 阶 ` 四 阶 和 六 阶 Epanechnikov 核 。 显 然 , 对 
v >2 ,这些 核 的 确 指定 了 可 能 引起 负 密 度 估计 的 负 权 重 , 这 不 是 一 个 期 望 的 


特征 。 


k (u) 
> 
è 





-0.20 “x et 
-25 -20 -1.5 -10 —5 0 05 10 15 20 25 
u 


图 1.2 不 同 阶 的 Epanechnikov 核 


至 于 在 单 变 量 核 密度 估计 背景 下 对 高 阶 核准 确 的 积分 均 方 误差 的 相关 研 
究 ,参见 Hansen(2005)。 此 外 ,对 使 用 迭代 法 来 估计 转换 核 密度 的 相关 研究 , 参 
W, Yang 和 Marron(1999) 以 及 Yang(2000)。 


1.12 ”定理 1.4 的 证 明 


下 面 的 证 明 是 基于 Masry(1996b) 中 给 出 的 论证 ,他 建立 了 对 带 有 弱 依 赖 
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a = x= s &€ s $ * 这 


(a 混合) 数据 的 局 部 多 项 式 回归 的 几乎 确定 一 致 收敛 速度 ;关于 纶 依赖 过 程 
的 进一步 细节 见 第 18 章 。 由 于 核 密度 估计 量 的 偏 误 是 0 ( > h] 阶 并 且 方差 


是 0((nh,…h,)-') 阶 ,很 容易 证 明 最 优 收敛 速度 要 求 所 有 的 h, 应 该 有 相同 大 小 
的 阶 。 因 此 ,为 了 记号 的 简洁 ,我 们 使 用 简化 的 假定 : 
À, = =" = h, = h 

这 不 会 影响 最 优 收 敛 速度 ,但 是 它 极 大 地 简化 了 推导 。 我 们 强调 ,在 应 用 中 ,人 
们 应 该 总 是 允许 h,(s =1,…,s) 彼 此 不 同 , 当 使 用 例如 交错 鉴定 等 完全 数据 驱 
动 窗 宽 选择 方法 时 ,这 当然 是 一 直 被 允许 的 。 我 们 仅仅 对 紧 接着 的 理论 分 析 假 
定 全 部 平滑 参数 是 相同 的 。 

证 明 : 令 W, = W,(z) = f(x) -f(x)1。 为 证 明 随机 变量 W, 几乎 确定 是 了 


阶 的 ,我 们 能 够 证 明 > PO W,/n1 > 1) 是 有 限 的 ( 某 些 %>0)。 那 么 ,根据 


Borel-Cantelli 引 理 ( 见 附录 A 引 理 A.7) ,我 们 知道 几乎 确定 W. = 0(m)。 这 里 ， 
上 确 界 算 子 使 得 证 明 复 杂 化 ,因为 5 是 一 个 不 可 数 集 。 令 L 表示 一 个 可 数 集 ， 
那么 ,我 们 有 

P(maxW,(x) >n) < (# L.) maxP( W. (x) > m) (1.50) 
但 在 我 们 的 情形 中 ,x e S 是 不 可 数 的 ,并 且 为 了 给 出 人 > m) 的 上 


界 ,我 们 不 能 简单 地 使 用 类 似 式 (1. 50) 的 不 等 式 。 
然而 ,由 于 S 是 有 界 集 ,我 们 能 够 把 S 分 割 为 许多 可 数 的 子 集 ,使 每 个 子 集 规 
模 尽 可 能 小 。 那 么 P(supl W,(x)1 >n) 能 够 被 转换 为 类 似 P(max| W(x)! > m) 


的 一 个 问题 ,并 且 不 等 式 (1. 50) 能 够 被 用 于 处 理 这 一 项 。 我 们 使 用 这 种 思路 证 
明定 理 1.4. 
我 们 记 
| f(x) -f(x)1 =1f(x) - E(f(x)) + E(f(x)) -f(x) | 
<! f(x) - E(f(x)) 1 +I E(f(z)) - f(x) | 
我 们 通过 证 明 下 式 证 明定 理 1.4; 


sup | E(f(x)) - f(x)! = O(h°) (1.51) 
R. 
J dl Llata)" 
sup1 f(x) - E(f(a))1 = o[ a ) as (1.52) 


我 们 首先 证 明 式 (1.51)。 由 于 紧 集 5S 是 在 其 支撑 的 内 部 ,通过 一 个 变量 替 
换 后 的 变量 (change-of-variables) „RIJE „Xt xes, 
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E(f(z)) - f(x) = [f(x + hv)K(v) dv -f(z) 
h? fv'f® (a)vK(v) do 
< Ch lvvk(v)dv < Chk? = O(h°) 


在 xe 5 一 致 。 因 此 ,我 们 证 明了 式 (1. 51)。 
现在 我 们 转向 式 (1.52) 的 证 明 。 由 于 S 是 紧 致 的 ( 闭 且 有 界 ), 它 可 被 以 
xi.n 为 中 心 且 长 度 为 4(k=1,…,L(n)) 的 (gq $E) SF I = 1, ,中 的 一 个 有 限 数 
,=LZ(nm) 覆 盖 。 因 为 S 是 紧 致 的 ,我 们 知道 L. = 常数/(1,)"' ,这 给 出 L = 常数/ 
L". RNE 
supl f(x) - E(Î(x)) 1 = max, sup | f(x) ~ ECf(#)) | 
< max sup. | f(x) -Îl x,a) | 


ls<k<L(n) res 


+ max | f(x,,) - E(f(x,..,)) | 


1 三 上 <L(n) 


+ max, sup | E(f(x,,)) - E(f(x)) | 


l<k=<L(n) 


= Q, + Q, + Q, 
注意 Q, 不 依赖 于 x, 因 此， sup 没有 出 现在 Q, 的 定义 中 。 


我 们 首先 考虑 Q, WW, (x) = f(x) - E(f(x)) = 了 也. 其 中 也 = 


(nh*) '|K((X, - x)/h) - E[K((X, -x)/h)]}。 对 任意 mm > 0, 我 们 有 
P[ Q, > m] = P[ max |! W.(x,.,) | > m] 


< P{W, (xn) > m À W.(x,,) >7 R W (Xna) > m] 
< P(W.(x,.) > n) + P(W,(x,.) > n) 十 和 … 
+ P(W,(x,..,..) > m) 
< L(n) supP[| W (x)! > m] (1.53) 
HH K JERAR, HS A, = sup, IK(x) | , RIJE |Z, 1 <2A,/(nhš) ,所 
有 i=1,…,n。 定 义 A, = (nh'ln(n))'?, JEZ n 足够 大 时 ,对 所 有 ii=1,…,n 
# AIZ, | S2A, [In(n)Z(nh°)]'?<1⁄2,% 使 用 不 等 式 exp(x) S1 +x +°, 


© 现在 ,任何 A, 夸 (nh?)/(44, ) 将 导致 1A,Z, ;1<1/2。 稍 后 我 们 将 证 明 ,为 得 到 Q, 的 最 优 率 ,人 
们 需要 选择 和 A, = (nh"ln(n))'?。 
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Ix1<1/2, 我 们 有 exp( +A,2,,) <1+A.Z.,+A.Z o AE, 
E[exp( + À,Z,,)] <1+AE[Z ] < expl EQŻZ)] (1.54) 
其 中 我 们 使 用 EZ, ,) =0, 而 对 第 二 个 不 等 式 我 们 使 用 1 +v<exp(v) ,v0(vw 
=E[A.2.,])。 
根据 Markov 不 等 式 ( 见 引 理 A.23 有 中 (x*) =exp(ax) ) ,我 们 知道 


Elexp(Xa)] 。>0 (1.55) 


P[X > c] < = == 


使 用 式 (1. 55) 我 们 得 到 
PUI W.C) ! > m] = P[ | S z.,| > n] 
s P(S t, >n] ‘P| Zz <-n] 
<P[S Z >n] P|- XZ >n] 
Eep (a. $ Z.) ]* Ele (=a, 2. )] 


exp(À,m,) 
(由 式 (1.55),a = Ac = 1) 


< 


< 2exp( - am [e (A: > E(Z".) )] 


(根据 式 (1.54)) 
< 2exp( - À,m)[ exp( A,A" /(nh°) ) ] (1.56) 


其 中 我 们 使 用 
ELZ? ] < (nh*) 2E[K°( (X, - x)/h)] < A, (n'h*) [1+o(1l)] 


因为 式 (1.56) 中 最 后 的 上 界 独 立 于 x, 它 也 是 一 致 有 界 , 即 
A,A). 
supP[ | W(x) | > n] < 2exp [ - Ànn + =] (1.57) 


我 们 希望 0 一 0 尽 可 能 快 , 并 且 同 时 我 们 需要 An = 的 速度 能 保证 式 
(1.57) 可 求 和 。 我 们 能 够 选择 Am = Cln(n) ,或 入 ,= C.In(n)/ms RE n 
一 0 的 最 快速 度 等 价 于 找 出 A, 一 % 的 最 快速 度 。 我 们 也 需要 A,n HB SA? 


<% ,序列 E N 被 称 作 可 求 和 的 o 





© 如 果 P. 
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x x 页 同 wE 2 ms = S: 


(nh) ,或 ln(n) =A?/ Cnh’), 因此 ,我 们 仅仅 需要 在 约束 A < (nh')ln(n) F 
大 化 入 ,一 om 的 阶 。 这 样 做 ,我 们 得 到 
À, = [(nh')ln(n)]'?,m = Cln(n)/A, = C,[In(n)/(nh*)]'!? 
(1.58) 
使 用 式 (1. 58) ,我 们 有 
- À,n + A,A. /(nh°) =- Cln(n) +A,ln(n) =- aln(n) 
其 中 ac = C, -4:。 把 该 式 代 入 式 (1.57) ,然后 代入 式 (1.53) ,我 们 有 
P[Q, > m,] < 2L(n)/n° (1.59) 
通过 选择 足够 大 的 C, ,我 们 再 选择 恰当 的 L(n) 的 阶 , 能 够 得 到 ZL(n)/n" 是 
可 求 和 的 结果 , 即 > PC Q.,/m, | >1) <4 X LO) n° < œ 。 因 此 ,根据 Borel- 
Cantelli 引 理 ,我们 知道 
Q, = O(m,) = O(In(n)'?/(nh')'2?) a.s. (1.60) 
我 们 现在 考虑 Q, AQ MAZI :| 表示 一 个 向 量 的 普通 欧 几 里 得 范 数 。 


根据 关于 天 (…) 的 Lipschitz 条 件 ,我 们 知道 
sup | K((X, - x)/h) - K((X, - x,,)Z/h) |= C,h' sup |x -x ll 


xe Sn, xe SN 
< G 8 tE 
因此 ,通过 选择 = (In(n) )'2h 022 Zn ,我 们 有 
| Q, |I S Ch To = O((In(n)/(nh*))'?) (1.61) 
通过 完全 相同 的 论证 我 们 能 够 证 明 
| Q, I! < Ch = O((In(n)Z/Z(nh°))'2) (1.62) 
方程 (1.60) 到 (1.62) 证 明了 式 (1.52) ,并 且 这 完成 了 定理 1.4 的 证 明 。 
口 
1.13 应 用 


我 们 现在 考虑 一 些 能 够 说 明 核 方法 灵活 性 和 作用 的 单 变量 和 多 变量 密度 
估计 的 应 用 。 


1.13.1 女性 工资 不 平等 


DiNardo 和 Tobias( 2001 ,p. 12 ) 使 用 非 参 数 核 方法 来 研究 从 1979 年 到 1989 
年 的 女性 工资 不 平等 现象 。 有 时 一 个 参数 分 布 的 尺度 被 用 作 不 平等 的 一 个 
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gs w zi 7% a 2 % m w 


原始 测度 ,并 且 对 数 工资 的 标准 差 在 这 段 时 期 从 0.41 增加 到 0. 50 ,提高 了 
25% D 人 们 可 能 认为 这 些 变 化 背后 共同 的 原因 将 包括 国际 贸易 、 技 术 变 化 或 
者 可 能 的 组 织 变 迁 。 正 如 我 们 将 在 下 面 看 到 的 , DiNardo 和 Tobias 证 明 核 估计 
量 有 助 于 说 明 什 么 是 真正 的 原因 。 
如 果 使 用 一 个 参数 模型 并 且 假 定 , 比 如 说 ,对 数 工资 服从 一 个 正 态 分 布 ,人 
们 将 获得 出 现在 图 1.3 中 的 数据 描述 。 
10 
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1.3 参数 密度 估计 |( 竖 线 代表 1979 年 和 1989 年 的 (对 数 ) 最 低 工资 ) 


使 用 非 参 数 核 方法 和 一 个 采用 二 阶 高 斯 核 的 简单 “ 正 态 推断 经 验 法 则 ” 42 
(h =1.06on `“) ARPE T E 1.4 中 画 出 的 估计 量 。 


1.0 





1.0 1.5 2.0 25 3.0 3.5 4.0 
log (工资 ) 


图 1.4 非 参数 密度 估计 ( 坚 线 代表 1979 年 和 1989 年 的 (对 数 ) 最 低 工资 ) 


Q 在 1979 年 和 1989 年 的 最 低 工 资 是 2. 90 美元 /小 时 和 3. 35 美元 /小 时 ,而 CP1 在 1979 年 .1989 年 
和 2000 年 分 别 是 72.6 .124.0 和 172.2。 工 资 来 自 当 前 人 口 调查 (Current Population Survey, CPS) 。 在 1979 
年 和 1989 年 的 样本 中 分 别 有 140 284 和 167863 个 观测 值 。 高 斯 核 被 使 用 ,并 且 正 态 推断 经 验 法 则 窗 宽 对 
1979 年 和 1989 年 的 样本 分 别 是 0.050 和 0.053。 出 现在 图 1.3 和 1.4 中 的 工资 值 是 当前 (2000 年 ) 美 元 价值 。 
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x. E 2: € t y m 而 


出 现在 图 1.4 中 的 基于 正 态 推断 经 验 法 则 的 两 个 核 密度 估计 看 起 来 是 平 
滑 不 足 的 。 然 而 ,这 些 估计 清楚 地 揭示 了 一 个 没有 被 参数 方法 捕捉 的 特征 :一 
个 在 1979 年 有 约束 力 的 最 低 工资 标准 在 1989 年 对 大 多 数 女 性 不 再 起 约束 作 
用 。 这 个 发 现 意 味 着 工资 不 平等 的 增长 能 够 被 在 1979 年 一 个 有 约束 力 的 真实 
最 低 工资 所 引起 的 截断 来 解释 。 也 就 是 说 ,在 1979 年 ,不 像 在 1989 年 ,雇主 对 
许多 雇员 支付 最 低 工资 ,这 扭曲 并 减少 了 工资 分 布 的 方差 。 最 低 工资 真实 值 随 
着 时 间 推 移 而 下 降 , 在 1989 年 成 为 无 约束 力 的 。 因 此 , 非 参 数 估计 量 已 经 很 好 
地 揭示 了 扩大 的 工资 不 平等 背后 的 真实 原因 ,并 把 注意 力 从 其 他 可 能 的 解释 上 
移 开 ,比如 国际 贸易 ,技术 变化 或 者 可 能 的 组 织 变迁 。 这 个 例子 只 是 用 来 强调 
传统 参数 方法 可 能 掩盖 数据 中 出 现 的 重要 特征 这 个 事实 。 


1.13.2 失业 率 和 城市 规模 


在 这 个 例子 中 我 们 基于 一 个 n = 295 个 城市 的 样本 使 用 了 关于 城市 人 口 
(ln( 城 市 规模 ) ) 和 失业 率 的 美国 数据 。Gan 和 Zhang(2006 ) 提出 一 个 理论 , 预 
言 城市 规模 越 大 ,失业 率 越 低 (平均 意义 上 )。 在 图 1.5 中 ,我 们 使 用 最 小 二 乘 
交错 窗 宽 选 择 和 一 个 二 阶 高 斯 核 画 出 了 估计 的 联合 概率 密度 函数 。 失 业 率 和 
人 口 的 交错 鉴定 窗 宽 分 别 是 0. 665 和 0. 351, 





o n 2 B Moo 
9 In (城市 规模 ) 


图 1.5 失业 率 和 jn( 城 市 规模 ) 的 联合 密度 估计 


出 现在 图 1.5 中 的 联合 密度 估计 是 跟 大 城市 倾向 于 有 低 失业 率 并 且 反 之 
亦 然 的 假说 一 致 的 。 也 就 是 说 ,图 1.5 揭示 了 某 种 程度 上 的 “直角 分 布 ”, 在 低 
失业 率 和 大 的 城市 规模 处 有 概率 密度 (probability mass) ,而 当 城市 规模 下 降 时 
我 们 观察 到 概率 密度 首先 转移 向 原点 ,然后 当 城 市 规模 进一步 下 降 时 ,这 个 密 
度 转 移 向 更 高 的 失业 率 。 
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1.13.3 青少年 成 长 


青少年 不 正常 的 生长 能 够 提供 一 个 儿童 有 医疗 问题 的 早期 警告 。 例 如 , 太 
快 的 生长 可 能 暗示 着 脑 水 肿 (在 头颅 内 的 积 液 )、 脑 瘤 或 其 他 会 引起 巨头 症 ( 有 
一 个 不 正常 的 大 脑袋 ) 的 条 件 的 出 现 ,而 太 慢 的 生长 可 能 意味 着 大 脑 畸 形 \ 颅 颖 
早期 融合 或 其 他 问题 。 身 高 .体重 增加 不 足 或 两 者 综合 不 足 可 能 意味 着 生长 迟 
Hh ,慢性 疾病 \ 未 好 好 照管 或 其 他 问题 。 

我 们 研究 来 自 美国 疾病 控制 和 预防 中 心 (CDC ) 国家 健康 和 营养 检测 调查 
关于 美国 孩子 健康 的 人 口 数据 。 我 们 整合 数据 并 使 用 1999/2000 和 2001/2002 
这 两 个 有 全 国 代表 性 的 健康 检测 调查 横 截 面 数据 。 对 每 个 横 截面 ,两 个 单独 的 
数据 集 必须 被 联系 起 来 (一 个 身体 检查 数据 集 和 一 个 人 口 变量 数据 集 ) 。 整 合 
起 来 的 联合 数据 集 包 括 8 399 个 位 于 2 一 20 岁 年 龄 段 的 儿童 和 青少年 的 完整 观 
测 值 。 我 们 根据 性 别 为 身高 和 体重 构建 联合 分 布 。 

图 1.6 和 图 1.7 显示 男性 和 女性 的 身高 和 体重 联合 分 布 是 类 似 的 ;然而 ， 
男性 在 更 高 的 身高 和 体重 值 处 有 更 大 的 概率 密度 。 也 就 是 说 ,人 们 更 容易 观测 
到 又 高 又 重 的 男孩 而 不 是 女孩 。 这 类 数据 竟 定 了 构造 青少年 成 长 图 形 的 基础 ， 
比如 身高 体重 图 。? 也 可 参见 Wei 和 He(2006) 对 有 条 件 的 生长 图 的 相关 研究 。 





图 1.6 男性 体重 和 身高 的 联合 密度 估计 


© 由 美国 国家 健康 统计 中 心 制作 的 官方 成 长 图 见 http;//www. ede. gov/ growthcharts。 
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> 5 % ki s L. à m 





图 1.7 女性 体重 和 身高 的 联合 密度 估计 


1.13.4 老 忠实 喷泉 数据 


老 忠实 喷 果 是 位 于 黄石 国家 公园 的 一 个 旅游 名 胜 。 这 个 著名 的 数据 集 包 

括 由 2 个 变量 构成 的 n=272 个 观测 值 ,喷发 持续 时 间 ( 分 钟 ) 和 等 到 下 一 次 喷 

发 的 时 间 ( 分 钟 ) 。 这 个 数据 集 被 公园 服务 部 门 用 于 建 模 , 除 了 其 他 因素 外 ,期 

望 持 续 时 间 条 件 于 自 上 次 喷发 后 已 经 过 去 的 时 间 量 。 然 而 ,联合 分 布 建 模 所 关 

心 的 是 自身 的 合理 性 。 联 合 概率 密度 函数 的 潜在 双 峰 特征 由 图 1.8 中 给 出 的 

45 _ 核 估计 量 很 好 地 揭示 , 它 的 构造 使 用 了 似 然 交 错 鉴定 窗 宽 和 一 个 二 阶 高 斯 核 。9 





图 1.8 老 忠实 喷泉 数据 的 联合 密度 估计 


如 果 要 用 一 个 参数 模型 ,例如 二 元 正 态 (满足 对 称 、 单 峰 和 远离 峰 时 单调 递 
减 ) ,来 为 这 个 密度 建 模 , 人们 当然 不 能 揭示 被 核 估计 很 好 显示 的 那 种 潜在 
结构 。 


Q@” 似 然 交 错 鉴 定 窗 宽 计 算 等 于 (hi h) = (0.368z n! ,.0.764G,;n U) ,而 最 小 二 乘 交错 鉴定 窗 宽 
是 (hi ,h,) = (0.307ein !.0.733G,n 76) JEP h, 是 晓 发 持续 时 间 的 窗 宽 ,而 h, 是 等 待 时 间 的 窗 宽 。 
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A < J w s w 路 


1.13.5 意大利 真实 收入 分 布 的 演化 ,1951 一 1998 年 


Baiocchi(2006 ) 使 用 核 方法 研究 了 意大利 真实 收入 分 布 的 演化 。 他 研究 了 21 
个 地 区 收入 分 布 的 一 系列 “堆积 的 ”(stacked) 单 变量 核 密度 估计 并 画 出 了 这 些 单 ”46 
变量 核 密 度 估计 随 着 时 间 推 移 的 相应 演化 。 我 们 感谢 Giovanni Baiocchi 提供 了 使 
用 似 然 交 错 鉴定 用 于 产生 一 系列 单 变量 核 估计 的 包括 1951 一 1998 年 ( 百 万 里 拉 ， 
1990 = 基 年 ) 观测 值 的 数据 。 图 1. 9 通过 在 一 个 .名 中 堆积 年 度 ( 即 横 截 面 ) 单 
变量 核 估计 呈现 了 真实 人 均 GDP 的 演化 ( 百 万 1990 年 里 拉 ) 。 





1.9 意大利 收入 分 布 的 演化 ,1951 一 1998 年 ( 单 变量 交错 核 估计 序列 ) 


图 1.9 显示 收入 分 布 已 经 从 20 世纪 50 年 代 初 期 的 单 峰 分 布 演化 为 20 t 
纪 90 年 代 明 显 的 双 峰 分 布 。 这 个 结果 对 窗 宽 选择 是 稳健 的 ,并 且 不 管用 简单 
经 验 法 则 还 是 诸如 似 然 交 错 鉴 定之 类 的 数据 驱动 方法 都 能 被 观测 到 。 核 方法 
很 好 地 显示 了 这 种 演化 ,如 果 人 们 使 用 收入 分 布 的 参数 模型 ,这 种 演化 可 能 很 
容易 被 忽略 ( 比如 在 应 用 研究 中 广泛 使 用 的 对 数 正 态 分 布 )。 47 


1.14 2] 题 


习题 1.1 考虑 如 下 连续 数据 样本 : 
| -0.57,0.25, - 0.08,1.40, - 1.05, -1.00,0.37, - 1. 15,0. 73,1. 59 | 

(例如 ,以 万 亿美 元 计 的 真实 GDP 季节 调整 缺口 ) 。 

回忆 由 下 式 给 出 的 参数 正 态 概率 密度 郴 数 : 

Ruya =. sol 
270 

(i) 假定 一 个 潜在 正 态 分 布 ,计算 这 些 数据 并 画 出 参数 密度 函数 ( 即 计算 及 

和 0)。 
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Cii) A -1.5 到 2.0 使 用 0.5 的 箱 宽 计 算 这 些 数据 并 画 出 直方 图 。 
回忆 连续 数据 的 一 个 单 变量 密度 函数 的 核 估 计量 可 以 被 表示 为 


f(x) = 1y [2 | 


并 且 一 个 常用 (最 优 ) 核 是 Epanechnikov 核 ,由 下 式 给 出 : 





< 





3 l / X, - xy? X, - x 
(全 人 =): | h 








其 他 
Hep h 是 一 个 平滑 参数 ,受到 位 于 范围 (0,% ] 的 限制 。 

(iii) 使 用 同样 小 的 数据 样本 ,使 用 窗 宽 h=1.5, 对 每 个 样本 实现 计算 密度 
函数 的 核 估 计量 。 写 出 全 部 步骤 。 

(iv) 使 用 同样 的 数据 ,使 用 窗 宽 h=1.5, 对 每 个 样本 实现 计算 密度 函数 的 
核 估 计量 。 写 出 全 部 步骤 。 

(v) 在 同样 的 轴 上 ,对 每 个 函数 使 用 一 个 平滑 曲线 来 “连接 点 ”( connect the 
dots) , 画 出 你 的 密度 函数 估计 量 。 

(vi) 描述 增加 平滑 参数 对 估计 的 密度 函数 的 影响 。 

习题 1.2 令 记 是 定义 于 式 (1.1) 的 。 证 明 P 是 p=P(H) 的 极 大 似 然 估 
计量 。 

提示 :如 果 第 i 次 试验 是 五 ,定义 X;=1, 如 果 是 7, 则 定义 X,=0。 那 么 似 然 


REA J) = [Ip (1 -DAARNA L = (Yx)me + 


[>O - x) ]in(1 - p) 
| 习题 1.3 

(i) HEB] MSE(P,) =p(1 一 p)/n, 其 中 p=P(H)。 

(ii) 证 明 plim, .. p. = po 

(iii) 假定 p=P(H) e (0,1) ,证 明 通常 极限 limp。 不 存在 。 

注意 极限 被 定义 如 下 : 令 a, 为 一 实数 序列 ,我们 记 lima, =e, 如 果 对 所 有 任 
意 小 e > 0 ,存在 一 个 正 整数 mn ,满足 :对 所 有 mn 三 mo,la, -cl<eo。 

提示 :对 (ii) 使 用 (i) 的 结果 和 附录 A 的 定理 A.3。 

提示 :对 (iii) 通 过 反 证 法 证 明 。 

习题 1.4 令 F,(x) 是 定义 在 式 (1.2) 中 的 。 

(i) WEH MSE1F,(x)1=0(n”)( 注 意 根据 附录 A 的 定理 A.7, 这 意味 着 
F(x) -F(x) =O,(n"'!2)), 
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(ii) 证 明 50 
VECF.(xz) - F(a)) SN(O,F(x) (1 - F(x))) 
提示 :首先 证 明 E[ F(x)] = F(z) DL Ë var(F.(z)) =n F(s) (1 — 
F(x) ) ,然后 使 用 Lindeberg-Levy 中 心 极限 定理 。 
习题 1.5 在 假定 f(x) 在 x 处 有 连续 二 阶 导 数 下 证 明 式 (1.13)。 
提示 :使 用 由 附录 A et A.13 mumatumem. 





习题 1.6 ia = |== 2 =(n(n-1)) ` - 
(m (n-1)) ' hiii gak 23) 得 到 
CV,(h) = — mr RN re 
“tab, 
= gop += + si -2k,] + 0,(n™) 
a (1.63) 


其 中 几 = [n(n - 1)h] E Y [ky - 2k] B < = fk (e)ae = (0)。 
(i) HEB] E(J.) = B, + Bh + O(h°), J&ih B, =- fI Cx) ds B B, = 


Ce/4) [SUP a) Tar}, 

(ii) unta =E(J,)+ 低 阶 项 这 个 事实 ,因此 ,最 小 化 CV,(h) 渐 近 地 等 价 
于 最 小 化 1(h) 2 (nh) 'x+E(J. ) 。 得 到 最 小 化 1(h) 的 hh。 

(iii) 假定 对 所 有 wv 有 (0) 宇 k(v) (这 对 核 估计 通常 是 成 立 的) 。 如 果 我 们 
不 用 去 一 估计 量 ,那么 我 们 将 有 目标 函数 Y(A) E (nh) -'[k -2k(0)] +E(J,)。 

证 明 h=0 最 小 化 V(h) ,这 显然 违反 了 条 件 当 na— = 时 ,mh 一 om 。 这 说 明 当 构造 

CVj(h) 时 我 们 必须 使 用 去 一 估计 量 。 

(iv) 在 推导 式 (1. 63) 中 我 们 使 用 了 51 

A, = [n (n - 1)h] ' `> k( (X, - X.) /h) = 0,(n`) 

请 证 明 这 个 结果 。 

(v) 使 用 附录 A 引 理 A. 15 给 出 的 也 统计 量 有 分 解 ,证 明 J. = E( J.) + 
O (h'2(nh) ' +n 7 '2h') + 与 六 无 关 项 。 因 此 ,我 们 确实 有 J. = E(J.) + 
(s. o. ) (对 一 个 给 定 的 产值 )。 


39 


非 参 数 计量 经 济 学 


x 5 w ks x w yx m m 


提示 :注意 (:) 也 是 一 个 非 负 、 对 称 的 概率 密度 函数 , 即 [Ed = 1," s 


是 一 个 奇 的 正 整 数 时 , |v'E(v)dv = 0, 
(i) 





EDE] = ñ” Fj | mii ai de 
E 2) an *) Jax 
=h ' [| (2 oT dx 


h fI) +0 + (K,/2)f® (x)h? +0 
+ (r,/41)f® (æ)h* + O(h5) ]?dx 





& pe), )/(x,) dx, dx, 


= RfE (z) +0 + (72) (x)h? + 0 
+ (KM41)F (xz)h'| dx + O(h°) 

(ü) HW k(0) = [eCv) a > 0. 

(iii) 证 明 A—0 产生 的 目标 函数 的 值 为 V(h) = - mw 。 因 此 ,h =0 最 小 化 
V(h)。 

52 (iv) HEB E | A, || =E(4,) =0(n-') ,然后 应 用 定理 A.7。 

(v) 使 用 U 统 计量 恕 分 解 (再 次 见 附录 A) ,证 明 如 分 解 的 最 后 两 项 分 别 
是 O (n 2h)( 加 上 与 4 无 关 项 ) 和 0,(h'?(nh) -') 阶 的 。 

习题 1.7 ”推导 式 (1.27) , 即 证 明 


f Aoa =n” > 6(= -2 
提示 :使 用 fv) = (nh) sqi 2) 且 做 一 个 变量 替换 (x, r) h = 以 


K dx, = hdv。 
习题 1.8 
(i) 讨论 核 和 经 验 累 积分 布 函 数 估计 量 之 间 的 关系 , 即 (x) 和 F(x) = 
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F s: w 3 kaj =s 


n` F < x), 


(ü) bhHe@ A 1122868 EEXLFR. 27) H ÊC) HER h =0, ANAE 2 
fE P(x) HE ho 任意 快 ? 

(iü) P(x) MF, (ARRAES o E ÊC) 而 不 是 F,(x) 094828 1 
什么 ? 你 期 望 哪 一 个 估计 量 有 更 小 的 有 限 样本 ? 请 解释 。 

习题 1.9 推导 式 (1.33) 。 

提示 : 记 1(x) =1(X,<x) 和 6G, =G((x - X.) /h) ,那么 

E[CVr(D] = ry À X X SEILO) - G... 
x [1(x) - G, ..] 1 dx 


1 2 
二 mg ai, [1;(x) 一 G... ] | dx 





+ 于 二 [BE[L(z) - G., 1 X,]}’dx 


= CV, + CV, 


CV, = (n- 1) " {2fr0 - F)dx - C,h + OCh) } 


CV, 


1 à i 
| -一 二 (rol = F(s) ds + h'fC, (x) dx | 

习题 1.10 定义 一 个 4 x9q 和 矩阵 A, 给 定 其 第 (ts) 个 元 素 为 4,，= 
(«3/2) |B,(x)B,(z)dx 


(i) 证 明 A 是 半 正 定 的 。 

(ii) 证 明 如 果 A 是 正定 的 ,那么 定义 于 式 (1.41) 的 a. 全 部 可 唯一 确定 , 且 
是 正 的 和 有 限 的 。 

A 是 正定 的 一 个 必要 条 件 是 对 所 有 s =1,… ,gq, 有 _f,(x) 不 是 一 个 零 函 数 。 

提示 


(i) 注意 对 任意 g x1 向 量 z= (z, ，…,z,) ,有 z'4z = [| Y B, (2)z, | ax >o, 


(ü) EX z, =a ,那么 Xj =z'Az + k/a zo 3E2 z 表示 最 小 化 的 z, 
值 。 很 容易 说 明 0 < inf y, < wm 。 这 意味 着 z >0 对 所 有 s 成 立 。 最 后 ,根据 Li 


和 Zhou(2005 ) 给 出 的 结果 ,z 是 唯一 被 决定 的 。 因 此 ,a? = /z 是 唯一 被 决定 
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的 , 且 对 所 有 s =1,…,g 是 正 的 和 有 限 的 。 

注意 A 正定 是 一 个 充分 条 件 。Li 和 Zhou(2005 ) 对 这 个 结果 提供 了 一 个 更 
弱 的 充 要 条 件 。 

习题 1.11 证 明 式 (1.36) 和 式 (1.37) 。 


提示 :对 一 个 多 变量 Taylor 展开 ,我 们 有 f(xo。 +x) = f(x.) + Y Slr) (x, - 


x,o ) + (1⁄2) y > Sa (5) (x, = <) Co za Ei) Ë 位 于 Xo 和 x 之 间 的 线段 上 。 
习题 1. 12 对 多 变量 情形 ,我 们 有 


K' ， 
CVaCh sh) = + Os (mh sh 


其 中 几 = [n(n -1)] " ` > [K,(X,,X,) - 2K,(X,,X,) ] 


) ') 





q 


(i) 证 明 E(J,) = [| > BF] de tof Xat]. atap B, 的 定义 在 1.8 


节 给 出 。 
(ü) EA U 统计 量 分解 来 证 明 ( 忽略 与 H, 无 关 项 ) 


J, =E(1.) + 0, [n "2 | Ya) ) 


+0,( (h, ,h,)'? (nh... h.) 1) 
注意 (i) 和 (ii) 一 起 意味 着 


CV, = > Bh +’ (nh,,--,h.) ' + o,(m, + n.) 


4 


其 中 m, = > h HB n. = (nh, ,h,) o 

提示 :使 用 五 分 解 ,证 明 第 二 和 第 三 项 的 二 阶 矩 分 别 是 O (n 2 n) 和 
0O((h…h,)n,) 阶 的 。 

习题 1.13 ”假定 Xe[0,1] 和 /f(0) >0, 证 明 E[f(0)] =f(0)/2+0O(h) 使 
得 f(0) 是 f(0) 的 一 个 有 偏 估计 量 ,其 至 是 渐 近 有 偏 的 。 


提示 : (0) = (nah) Y k((X, -0)/h), H. 
E[f(0)] = h''E[k(X,/h)] = h” [Ga k(x/h) ak, 
= [Ah kv) de 


—/(0) GOD = /(0)/2 


第 1 章 密度 估计 


习题 1.14 ”使 用 定义 于 式 (1.43 ) 中 的 修正 的 边界 核 ,定义 于 式 (1.44) 中 
的 f(x) 以 及 位 于 [0,1] 的 瑟 的 支撑 ,证 明 对 在 边界 处 的 xs [0,h], 我 们 有 
E[f(x)] =f(x) + O( h) 。 明 确 地 给 出 推导 这 个 结果 需要 的 条 件 。 

因此 , 当 m 一 om ht ,bias[ f(x) ] =0(h) 一 0, 且 修正 的 边界 核 恢复 了 当 x 在 
边界 处 时 对 f(x) 的 渐 近 无 偏 性 。 

提示 :可 以 记 x=ah, 其 中 0<a<1。 可 以 假定 对 所 有 x,ze[0,1];lf(x) - 
f(z)1<Clx -zl, 其 中 C 是 一 个 正常 数 ,然后 令 x =ah,ae [0,1] ,我们 有 f(x) = 
f (ah) 和 


[aba yils, 


E[f(ah)] = 
[ k(v)dv 
| KOA ah Pe 
= —— = /(0) + 0(h) 
Í klojdv 


因为 


1 
l +v 


-一 |= 一 
1-a+l1/h (1 -—a)h +1 


HERK v, AE klv) <c/(1 +>) ,于 是 有 
[koaj 丰 xDa= | -f kO) || ko) 
= 1 -O0O(h)/0(1) = 1 + O(h) 
习题 1.15 有 一 个 v 阶 核 ,对 单 变量 * 的 情况 证 明 式 (1.46) 和 式 (1.47) 
( 即 q=1)s 
习题 1.16 ”直观 地 , 人 们 可 能 认为 当 f(x) 是 一 个 均匀 密度 ,比如 位 于 
[0,1] 时 ,能 够 选择 一 个 非 缩小 的 hh 对 某 些 xe[0,1]( 即 当 n 一 wm 时 hh 不 趋 于 
0) 来 估计 f(x)。 当 x 是 一 个 [0,1] 的 内 点 时 ,这 种 直 党 是 正确 的 。 然 而 ,在 (或 
接近 )[0,1] 的 边界 ,即使 对 均匀 f(x) 估计 偏 误 也 不 会 趋 于 0。 
(i) 证 明 当 n>wm 时 ,如 果 4 不 趋 于 0, 那 么 | [f(x,h) - f(x) dx 将 不 会 
收敛 于 0, 其 中 f(x) 是 均匀 概率 密度 函数 。 
Gi) 证 明 当 w 一 w= 时 ,如 果 h 一 0, 那 么 | [f(x,h) - fC) ] ?dx 一 0, 其 中 


j kdg ef RET a AT ET 
-a+l/h -a+1/h 








=- [0 = O(h) 
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可 z ; = 


f(x) 是 均匀 概率 密度 函数 。 

以 上 (iD 和 (ii) 解 释 了 为 什么 当 no 时 ,交错 鉴定 选择 的 h, 即 必须 收敛 
于 0, 并 且 为 什么 人 们 不 需要 f/f"” (x) 是非 零 函 数 这 个 条 件 。 当 然 当 f(x) 是 一 个 
均匀 概率 密度 函数 时 ,hh 将 不 再 有 通常 的 阶 (n“"”) ,而 是 有 一 个 等 于 n-"” 的 阶 ， 
因为 偏 误 现在 是 A 阶 而 不 是 阶 。 

习题 1. 17 考虑 来 自 1.13.5 节 的 意大利 收入 数据 。 对 1951 年 和 1998 年 
大 小 为 n=21 的 两 个 样本 ,假定 一 个 潜在 的 正 态 分 布 ,使 用 式 (1.17) 的 推断 经 
验 法 则 计算 密度 估计 。 窗 宽 必 须 是 其 多 少 倍 才 能 消除 在 1998 年 样本 中 出 现 的 
双 峰 特征 ?下 一 步 ,使 用 最 小 二 乘 交 错 鉴定 法 计算 密度 估计 。 假 定 这 些 窗 宽 代 
表 最 优 窗 宽 ,1998 年 的 窗 宽 必 须 是 多 大 才能 产生 一 个 明显 的 单 峰 分 布 ? 最 后 ， 
把 你 的 最 小 二 乘 交 错 鉴定 密度 估计 跟 一 个 单纯 的 直方 图 比较 。 你 的 估计 显得 
更 敏感 吗 , 即 它们 反映 了 在 数据 中 实际 出 现 的 特征 吗 ? 
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回归 分 析 可 能 是 在 所 有 应 用 数据 分 析 中 被 最 广泛 
使 用 的 工具 。 给 定 一 个 典型 的 以 表示 的 协 变 量 向 量 
( 它 通常 被 称 作 “回归 元 "或 解释 变量 " ) ,回归 方法 对 
一 个 典型 的 以 了 表示 的 因 变 量 的 期 望 行为 建 模 。 换 句 
话说 ,回归 分 析 被 设计 用 于 回答 诸如 此 类 问题 :在 交通 
运输 部 门 工作 的 一 个 黑人 女性 大 学 毕业 生 的 期 望 工资 
是 多 少 ? 更 进一步 ,应 用 者 经 常 对 因 变 量 的 一 个 或 多 个 
协 变量 的 一 个 变化 如 何 做 出 反应 (响应 ) 以 及 这 种 反应 
是 否 显著 区 别 于 零 ( 显 著 性 检验 ) 感 兴趣 。 我 们 首先 简 
要 概述 参数 回归 ,然后 快速 转向 非 参 数 回归 的 研究 。 

到 目前 为 止 最 流行 的 参数 回归 模型 是 由 下 式 给 出 
的 线性 回归 模型 ; 


Y, =B +XIB +u,, i= 1, ,n (3.3) 
其 中 XeR', 且 B 为 gx1 维 的 未 知 参 数 向 量 , 而 一 个 更 
一 般 的 非 线 性 回归 模型 由 下 式 给 出 : 

Y, = g(X,,B) +u, i=1,,n (2.2) 


其 中 g(*,*) 有 一 个 已 知 的 函数 形式 ,B 仍然 是 9 x 1 HE 
的 未 知 参 数 向 量 。 例 如 ,我 们 可 以 给 出 这 样 形式 的 一 个 
模型 g(x,B) =exp(x'B)。 如 果 对 包含 有 限 个 未 知 参 数 
的 回归 模型 已 经 设 定 函 数 形式 ,诸如 普通 最 小 二 乘 或 非 
线性 最 小 二 乘 之 类 的 方法 就 能 够 被 用 于 估计 式 (2. 1 ) 或 
式 (2.2) 中 的 未 知 参数 向 量 B。 

跟 用 参数 方法 模型 化 一 个 概率 密度 函数 时 的 情况 
一 样 ( 见 第 1 章 ) ,在 实践 中 真实 回归 函数 形式 几乎 很 少 
是 已 知 的 。 由 于 参数 方法 要 求 使 用 者 在 估计 前 设 定 准 
确 的 模型 参数 形式 ,人 们 必须 面 对 假 定 模型 可 能 跟 数据 
生成 过 程 (DGP) 不 一 致 的 可 能 性 ,并 且 在 实践 中 人 们 必 
须 处 理 参 数 回 归 模 型 可 能 出 现 的 被 严重 误 设 的 问题 。 
为 了 得 到 有 效 的 推断 ,人 们 必须 正确 设 定 的 不 仅仅 是 条 
件 均值 函数 ,而 且 也 包括 异 方差 和 序列 相关 函数 。 基 于 
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<. 


错误 设 定 模型 的 估计 和 推断 的 不 可 忽略 的 后 果 被 固定 下 来 ,包括 不 一 致 的 参数 
估计 和 无 效 的 推断 。 正 如 在 第 1 章 提 到 的 ,人 们 当然 能 够 检验 假定 的 参数 模型 
是 否 正确 ,但 拒绝 某 个 参数 模型 则 没有 为 备 择 模型 的 形式 提供 什么 内 容 。 也 就 
是 说 ,拒绝 假定 模型 不 会 因此 产生 一 个 正确 设 定 的 模型 。 

非 参数 回归 模型 不 要 求 应 用 者 对 潜在 数据 生成 过 程 做 出 函数 形式 的 假定 。 
它 并 不 假定 人 们 知道 待 估 对 象 的 准确 函数 形式 ,而 是 假定 该 对 象 存在 且 满 足 某 
些 正 则 条 件 ,比如 平滑 性 (可 微 性 ) 和 和 矩 条 件 。 然 而 ,我 们 再 次 指出 这 不 是 没有 
代价 的 。 通 过 对 问题 施加 较 少 的 结构 限制 , 非 参 数 方法 要 求 更 多 的 数据 才能 达 
到 跟 一 个 正确 设 定 的 参数 模型 相同 的 准确 度 。 然 而 ,如 果 人 们 人 怀疑 一 个 参数 模 
型 在 某 种 程度 上 被 错误 设 定 ,而 且 手 中 的 样本 不 是 太 小 以 至 于 使 用 非 参 数 技术 
没有 什么 意义 ,那么 应 用 者 可 以 考虑 非 参数 回归 方法 。 

我 们 先 考虑 以 下 非 参 数 回 归 模 型 

1 = g(K,) +u; =l, n (2.3) 
我 们 在 这 里 假定 样本 实现 (Y,,X,) 是 独立 同 分 布 的 ,尽管 我 们 将 在 第 18 章 放 松 
这 个 假定 。 函 数 形式 g O ) 当然 是 未 知 的 。 如 果 g(: ) 是 一 个 平滑 函数 ,那么 我 
们 能 够 用 核 方法 非 参 数 估计 g(*)。 基 于 定理 2. 1 ,我 们 将 把 g(x) 解 释 为 给 定 工 
=x 时 工 的 条 件 均值 , 即 g(x) =E[Y | X, =x] 

定理 2.1 令 9 表 示 具 有 有 限 二 阶 矩 的 Borel 可 测 ( 或 连续 ) 函数 族 ( 见 附录 
A 对 Borel 可 测 函 数 的 定义 )。 假 定 g(x) 三 E(YIX=x) 属 于 9, 并 且 E( 六 ) 是 有 
限 的 。 那 么 ,在 如 下 均 方 误差 ( MSE ) 的 意义 上 : 

El[Y-r(X)]"}EI[Y-E(YI X)] I, P# r(:) e Ç 
或 者 ,等 价 地 ， 
„min E|[Y -r(X)]°'] = EI[Y-E(Y! X)]°| 
即 E(YIX) 是 给 定时 了 的 最 优 预 测 值 。 

证 明 :首先 我 们 观察 到 g(x) =E(YIX=x) 是 一 个 x 的 函数 。 接 下 来 令 
(x,y)、fA(x) 和 f(y1x) 分 别 表示 (Y,) 的 联合 概率 密度 函数 、X 的 边际 概率 
密度 函数 ,以 及 YIX 的 条 件 概率 密度 函数 。 从 f(y1x) =f,.(xz,y)/f(x) ,我 
们 有 
hx) dy 。 
E(YIZ =<) = flyl sdy = Res) (2.4) 
这 显然 是 一 个 x 的 函数 。 现 在 ,对 任意 一 个 函数 r(x) ,我 们 有 

El{[Y -r(X)]?°}| = EI[Y- E(YI X) + E(Y| X) —- r(X) ]°| 

= E|[Y- E(Y! X)] | +EI[E(YI X) - r(X)]°| 
+2E1[(Y - E(YI X))(E(YI X) - r(X))]! 


= E|[Y- E(YI X)]? I +E|[E(YI X) - r(X)]°| 
> E|[Y - E(Y I X)]’} 
其 中 我 们 根据 重复 期 望 定律 ( 见 附录 A, 引 理 A. 11 ) 使 用 如 下 事实 ， 
El[Y- E(Y|I X)][E(YI X) - r(X)]| 
= El[Y- E(YI X)][g(X) -r(X)]|! 
= El[lg(X) -r(X)] 
x E[Y - E(YI X)! X]} =0 
O 
定理 2.1 说明 在 所 有 Borel 可 测 ( 或 连续 ) 函数 r(x) 族 中 ,E(YIX) 在 均 方 
误差 最 小 化 的 意义 上 是 利用 下 预测 的 最 优 函 数 。 于 是 我 们 将 把 式 (2.3) 中 的 
g(x) 解 释 为 E(Ylx)。 考 虑 到 式 (2.4) ,很 明显 一 旦 人 们 知道 如 何 使 用 在 第 1 章 
中 提出 的 方法 估计 下,(x,Y) 和 f(x) ,人 们 就 能 够 轻易 得 到 g(x) = E( Y1x) ËJ — 
个 估计 量 。 这 直接 引出 了 “局 部 常数 ” 核 估计 量 , 它 最 初 由 Nadaraya(1965 ) 和 
Watson( 1964 ) 提 出 ,经常 被 简单 地 称 为 “Nadaraya-Watson 核 估 计量 ”。 


2.1 局 部 常数 核 估计 
在 第 1 章 我 们 详细 研究 了 /,,,(x,y) 和 f(x) 的 估计 ,那么 为 估计 一 个 条 件 均 
值 , 仅 需要 额外 的 一 步 , 即 关于 y 积分 得 到 [2;..(*,y) dy。 注 意 我 们 可 以 通过 使 
用 未 知 概率 密度 函数 /,,,(*,y) 的 核 估计 代替 它 产生 f... y) dy 从 而 估计 
D... Gy) dy ,其 中 
Ë saya qa u F [Z "J n) 


其 中 有 | =) - [Z [ena 是 跟 Y 有 关 的 平滑 参数 。 因 











h h, 
此 ,我 们 有 


fh, (y)dy w "w w W K| £, s =) [7 Ja 


; q i=l 











Lr? K(Ž E) fO, + hav) kw) hodo 








= nhh eh, Z 
(变量 变换 : (y = Y,) Zh, = v) 
= a eaa h (2.5) 
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8: Eg 3 s š$ BR 2 s x 


其 中 ,我 们 使 用 了 [ke)de = 1 和 |vk(v)dv = 0。 
基于 式 (2.4) 和 式 (2.5) ,我 们 通过 下 式 估计 E(YIx) =g) 








. - X, — x 
ff (x7) dy > YK L ) 
lx) = = Y PT Puspa (2.6) 
ra 
这 正好 是 Y. 的 一 个 加 权 平 均 , 因 为 我 们 能 重 写 式 (2.6) 为 
g(x) = > Yw, 


其 中 w= K| 2] / (2) 是 施加 于 工 的 权重 。 注 意 权重 非 负 并 且 其 


j=1 





和 为 1 。 
沿 着 第 1 音 中 给 出 的 分 析 思 路 ,我 们 能 够 证 明 


a(s) = gis) = o yu: + (nhi) 2) 
它 的 证 明 类 似 于 下 式 的 证 明 
JG) =A) = 0, [| X H + Chh) 2 
它 在 第 1 章 1.6 节 出 现 过 。 证 明 &(*) 是 一 致 估计 的 一 个 简单 方法 是 对 分 子 和 


分 母 分 别处 理 。 首 先 我 们 记 


la) - gla) = ECES) = ñ(z) (2.7) 
f(x) f(x) 
Hp (x) = (8(x) —g(x))f(z). WH Y =z(X,) +u RIA 


(x) = (x) + ñ,(x) 


其 中 





ñ (z) = (nhi-h,) > (g(X,) -g(x))K( ~ 5) 





h(x) = (nhh) j3 uk( 一 一 =) 
使 用 记号 r(x +hv) =r(x, +h, x, +hv,) 和 使 用 在 式 (1.36) 的 推导 中 同样 
的 论证 ,我 们 能 轻易 证 明 


Elh (x)] = (hh) fA elm) - gla) K| = 2)az, 





. Je + hv)[g(x + ho) -g(x)]K(v)dv 

= DAA TA +/(a)g,(z)]| + O [ Se) 

= f(x) Y KB, (a) +0| Sa) (2.8) 
其 中 心 = [#k(o)ac, B, (x) = FAIS (gr) +AA) gu (z) Aa) ,有 r(x) 和 


r,(x*) 分 别 是 r(x) 关 于 x, 的 一 阶 和 二 阶 导数 (r =g 或 r=f)。 同 样 ， 
var( tm, (x)) = (nhh?) varf (g(X,) -g())K(Ž *)] 





(ahihi) (E{[ X) -e K(Ž: ] 
- {E[ a(x) - eK (2 )]} ) 


(nh? h?) ( Chih) [fC + hv) 





x [g(x + hv) - g(x) ]°’K(v)’dv — (s. o. ) ) 


z O (Cahn ' Y h J (2.9) 


其 中 (s. o. ) 代 表 低 阶 项 。 
式 (2.8) 和 式 (2.9) 导 出 


m (x) = f(x) > B.()h, +0,(m, +m, 7 ) (2.10) 


其 中 q, = (nhh) ' B m = AEN 见习 题 2. 1) 。 接 下 来 ,我 们 注意 到 63 
E[m,(x)] =0, 那 么 
; I = ll a 2p X, — x 
El|[m,(x)]'] = (nh'--h2) E| Ke Í ; )] 





= (nhik) Eo (x) KR (ŽE) 


= (nhih,) {fo (z) [KC do + o ( y )! 


(mh 'O(z) +O [ (nh, h.) Sa?) (2.11) 
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z 4 G z a k z 


其 中 Q(z) =xf(x)o (x), < = fk (e) de H o° (x) =E(u IX, =x). 
由 式 (2. 10) 和 式 (2. 11) 可 得 
h(x) = h (x) + hl) = 0.(m; +m, ) (2.12) 
因此 ,给 定 &(x) -g(x) = 应 (x)/f(x) 且 f(x) =f(x) +o,(1) ,我 们 可 证 明 
如 下 的 结果 (假定 f(x) >0): 


> ep PE x max) 
Brar = Rn TOETO 


=0,( S + Cn is) °) (2.13) 

从 式 (2.13) 很 容易 看 出 ,如 果 每 个 窗 宽 (h,) 有 同样 大 小 的 阶 ,那么 ,最 小 

化 MSE[&(x)] 的 h, 的 最 优选 择 是 h, — n ”> ,并且 相应 的 均 方 误差 是 
O(n ) 阶 的 。 


在 这 个 阶段 使 用 Liapunov 中 心 极限 定理 也 能 证 明 &(x) 的 渐 近 正 态 性 。 
定理 2.2 在 x 是 一 个 内 点 ,g(x) 和 f(x) 是 三 次 连续 可 微 的 ,日 f(x) >0 


ERAF IBA nro Mth OCHA $) ahi =h = H Cah, h,) Y AS 
0 ,我 们 有 
JRT, (80) ~ gla) = X B,C) ] NGOs K'o? (a) /x)) 
(2.14) 
其 中 B,(x) 是 直接 根据 式 (2.8) 定 义 的 。 
证 明 :(nh,…h,)'? 声 ,(*) 有 均值 零 且 式 (2. 11) 证 明了 它 有 渐 近 方差 2(z) 。 
使 用 Liapunov 中 心 极限 定理 ,容易 证 明 
Sahh i (E) S N(0,0(z)) (2. 15) 
结合 式 (2. 10) 和 式 (2. 15) ,我 们 有 
Vi ( (a) - S KB, CAC) ) = nhh h, (x) +0,(1) 


£ N(0,0(x)) (2.16) 


q 


因 为 (nhh) m2 一 人 有 h? =o(1l)。 


从 式 (2. 16) ,并 且 注 意 f(x) =f(x) +o,(1) ,我 们 立刻 得 到 


nhh, (B(x) -gla = > hiB,(x) ) 
nh h, (g(x) - g(x) - X hB, (x) ] (2) 


f (a) 
hh, (AC) - X RBA) ) 
E 
L ENOLA) ) = NO, K'o? (a/a) (2.17) 
这 就 完成 了 定理 2. 2 的 证 明 。 D 


2.1.1 局 部 常数 核 估计 量 潜 在 的 直觉 


为 了 掌握 非 参 数 核 回 归 方法 ,人 们 不 仅 应 该 掌握 比如 推导 收敛 速度 等 基本 
技能 ,还 应 明白 为 什么 核 方法 是 那样 运作 的 。 


幸运 的 是 ,在 g(x)-g(x) 缘 后 的 直觉 是 相当 简单 的 。 基 本 思想 是 g(x) 仅 
仅 是 “局 部 平均 "(local average) ,在 一 个 使 用 了 均匀 核 仅 有 一 个 回归 元 (X,eR) 65 
的 简单 情形 中 ,这 也 许 能 被 最 好 地 解释 。 在 这 种 情况 下 (h, =4) 我 们 看 到 


y y be `) 
y (23) 


> Y,(1⁄2) 


IX sl <h 


> (1⁄2) 


IX; -al <h 


py [g(xX,) + u, ] 





g(x) = 





1 


| Xi 一 和 | <à 


= |> I X. -x < hhf,g(X,) 的 平均 + u, 的 平均 | 


全 5(x) +0 = g(x) 
因为 在 假定 g(x) 在 x 存在 一 个 有 界 导数 时 ,对 所 有 1X, -x1<h, 有 lg(X,) - 
g(x)1=0O(h) =o(1)。 事 实 上 ,给 定 核 函 数 的 对 称 性 ,我们 有 nm- E (X) 


-g(x)) = O, (h°) s nho 的 条 件 保证 了 渐 近 性 ,无 限 多 的 观测 值 出 现在 每 一 
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pa r ed = 3 各 D 2 > 


个 长 度 为 h 的 区 间 ( 或 24, 即 我 们 运用 与 点 人 =x 距离 在 h 内 的 两 侧 点 计算 
g(%*) 的 估计 值 ) 。 这 是 因为 区 间 的 数目 是 O(1Ah) 阶 的 。 我 们 将 期 望 在 长 度 为 
h 的 区 间 内 平均 有 n/O(1Ah) = O(nh) 个 观测 值 。Azzalini 和 Bowman(1997 ) 把 
nh 称 作 “局 部 样本 规模 ”(local sample size) ,这 是 一 种 考虑 问题 的 好 方法 ,因为 
这 是 跟 在 一 个 固定 点 x 估计 回归 函数 有 关 的 样本 。 因 此 一 致 性 要 求 “ 局 部 样 
本 ”的 规模 必须 随 其 总 样本 大 小 (n 一 % ) 而 增加 (nh 一 % ) ,而 同时 区 间 宽 度 在 
极限 (h 一 0) 时 缩小 为 零 。 因 为 n— = 时 nh 一 % ,根据 大 数 定律 的 一 个 结论 ,在 
每 个 区 间 ,u; 的 均值 收敛 于 它们 的 总 体 样本 均值 E(u,) =0( 在 概率 上 )。 因 此 ， 
我 们 看 到 ,对 均匀 核 估计 ,g(x) 使 用 了 YY 的 一 个 简单 局 部 平均 (基于 与 x 靠近 
的 那些 X) Kitt g(x)。 

概括 起 来 ,我们 通过 将 因 变 量 的 一 些 数值 进行 局 部 平均 来 估计 条 件 均值 函 
数 ,而 这 些 数值 所 对 应 的 回归 元 的 取 值 是 相当 接近 的 。 用 来 构造 均值 的 局 部 信 
息 量 被 一 个 窗 宽 控制 。 通 过 控制 用 于 构造 估计 量 的 局 部 信息 量 ( 局 部 样本 规 
模 ) 和 允许 当 样本 规模 变 大 (同时 邻 域 缩 小 ) 时 局 部 均值 的 大 小 能 提供 更 多 的 信 
息 ,我 们 也 能 够 保证 在 标准 的 正则 条 件 下 估计 量 是 一 致 的 。 

估计 量 8&(x) 常 被 称 作 g(x) 的 局 部 常数 估计 量 , 尽 管 人 们 可 以 仅仅 简单 使 
用 局 部 线性 /多 项 式 方法 来 估计 g(x) ,而 对 局 部 多 项 式 方法 的 一 种 更 有 深度 处 
理 ,我 们 推荐 读者 参考 Fan 和 Gijbels( 1996 ) 的 优秀 著作 。 局 部 线性 估计 量 也 自 
动 提供 一 个 响应 估计 量 , 即 g(x) 的 导数 ,而 一 个 p 阶 局 部 多 项 式 方法 可 以 估计 
直到 p 阶 的 导数 。 我 们 将 在 下 面 的 2.4 节 讨论 局 部 线性 和 局 部 多 项 式 估计 方 
法 ,下面 我 们 首先 讨论 非 参 数 常 数 回 归 的 基本 内 容 , 即 窗 宽 选 择 。 


2.2 局 部 向 数 窗 宽 选 择 


在 这 一 节 我 们 讨论 通过 在 式 (2.6) 给 出 的 局 部 常数 估计 量 来 估计 未 知 回归 
函数 g(* ) 的 多 种 平滑 参数 的 选择 方法 。 我 们 讨论 三 种 不 同 的 平滑 参数 选择 
方法 :(1) 经 验 法则 和 插入 法 ,(2) 最 小 二 乘 交 错 鉴定 法 ,以 及 (3) 一 个 修正 
的 AIC 程序 。 


2.2.1 经 验 法 则 和 插入 法 
当 使 用 一 个 二 阶 核 时 ,可 以 证 明 最 优 平 滑 参 数 的 阶 应 该 是 O(n“*”)。 
一 个 流行 的 经 验 法 则 程序 是 通过 cX, uan O EE h, (s =1,…,g) ,其 中 


是 一 个 常数 ,X,,, 是 1X,,1"., 的 样本 标准 差 。 在 应 用 中 ,c, 经 常 被 选 作 1 或 者 某 
个 其 他 接近 1 的 常数 。 经 验 法 则 背后 的 论证 与 在 第 1 章 讨 论 的 所 谓 密度 估计 


的 正 态 推断 规则 是 相关 的 。 经 验 法 则 对 应 用 者 是 有 吸引 力 的 ,因为 从 计算 上 来 
说 它们 简单 。 然 而 ,这 种 方法 的 一 个 缺陷 是 它们 把 x 的 所 有 元 素 ( 协 变量 ) 对 称 
地 对 待 。 在 实践 中 ,一 个 回归 函数 g(*) 可 能 关于 一 个 元 素 缓慢 变化 ,比如 t, 
但 关于 另 一 个 元 素 迅 速 变 化 ,比如 x,。 在 这 种 情况 下 ,人 们 应 该 对 x, 使 用 一 个 
相对 较 大 的 平滑 参数 而 对 x, 使 用 一 个 相对 较 小 的 平滑 参数 。 很 明显 经 验 法 则 
缺少 这 种 灵活 性 。 

一 种 可 供 选择 的 方法 是 所 谓 的 插入 法 (plug-in method) , 它 通常 基于 最 小 化 
一 个 形式 为 |E[&(x) -g(x) ] v(x) dx 的 “加 权 积分 均 方 误差 ” (WIMSE) ,其 中 


期 望 是 关于 随机 样本 1X;,Y,} _, 取 的 ,并 且 v(x) 是 一 个 保证 加 权 积分 均 方 误差 
是 渐 近 有 限 的 非 负 权 重 晒 数 。 


在 式 (2.14) 中 推导 出 了 &(x) 的 偏 误 和 方差 首 项 。 因 此 ，[E[&(x) - 
g(x) 1” (x) dx 的 首 项 由 下 式 给 出 


WMSE = f| | X KB, ] + -x TD hr) dr 


nh eh, f(x) 








-o[[ >) + (ahh) ) (2.18) 
注意 此 处 使 用 一 个 权重 函数 是 重要 的 ,因为 对 许多 熟悉 的 密度 函数 (如 正 
态 密度 函数 ), [g(x)f (a) dx 不 存在 。 


通过 六 = an O 定义 a,, 那 么 式 (2. 18) 变 为 
WIMSE = |z “(y (a, a, ) (2.19) 
其 中 








vla "= a.) = { [Ses] + K. C pe (2.20) 


aa, (x) 
我 们 令 asa 代表 最 小 化 X (ai, ,a, ) 的 a,，,…,a, 值 。 如 果 其 中 一 个 
a 是 0, 我 们 对 某 is 必 有 a = m 。 这 意味 着 hh = wm 。 如 果 h, = om ,我 们 容易 
Aih k (X, -x,)/Zh,) =k(0) 成 为 一 个 常数 ,并 且 这 个 常数 在 8g(*) 的 分 子 和 分 
母 中 消 掉 了 ,以 至 于 &(x) 跟 x, 无 关 ( 如果 h=%)。 在 这 一 节 , 我 们 假定 x 的 所 
有 元 素 是 相关 的 回归 元 ,因此 我 们 排除 a'(h,) 是 无 穷 大 的 情况 并 且 假 定 ? 
每 个 a” 是 唯一 被 定义 的 、 正 的 且 有 限 的 。 (2.21) 


D 我 们 将 在 2.2.4 节 讨论 “无 关 回 归 元 ”(irrelevant regressor) 的 情况 ,那里 我 们 将 看 到 一 个 无 关 回 
归 元 的 最 优 平滑 参数 应 该 是 无 穷 大 的 。 
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ki 8 8 X 多 


A h 的 代表 最 小 化 式 (2. 18 ) 的 平滑 参数 ,我 们 有 
h° 一 "oiia s s= 1, ,q (2. 22) 

式 (2.22) 意 味 着 hh = O(n 7 )。 我 们 观察 到 a 依赖 于 未 知 函 数 
gC) 、/(*) 和 它们 的 导数 (因为 B,(x) 依 赖 于 这 些 函数 )。 当 1<g<2 时 ,得 到 
a 的 显 式 解 是 相当 直接 的 (见习 题 2.2)。 然 而 ,对 一 般 高 维 情况 ,关于 a" 的 显 
式 解 不 存在 ,即使 a, 是 很 好 定义 的 (再 见习 题 2.2)。 

当 一 个 关于 a” 的 显 式 解 存在 时 ,人 们 可 以 得 到 a 的 一 个 一 致 估计 量 。 令 
à 表示 a 的 一 个 一 致 估计 量 ,人们 能 够 通过 六 = 和 no s=, g) Ait 
hh 。 这 种 方法 被 称 作 插入 法 选择 平滑 参数 。 即 使 关于 a 的 显 式 解 不 存在 ,从 理 
论 上 人 们 仍然 能 获得 a 的 一 致 估计 。 例 如 ,人 们 能 用 某 些 一 致 估计 量 , 比如 
B,(x) 的 估计 来 代替 B, (x) ,计算 包括 xXx, 的 积分 ,然后 关于 o ,…,a, 在 数值 上 
最 小 化 x, 来 得 到 &，,… ,a 。 这 样 一 个 过 程 可 能 计算 量 很 大 。 如 同 我 们 在 
2. 2. 2 节 讨 论 的 ,在 这 种 情况 下 ,人 们 还 可 以 用 另外 一 种 交错 鉴定 程序 来 最 优 地 
选择 平滑 参数 。 

即使 存在 一 个 关于 a 的 显 式 解 ,人 们 仍然 需要 B, (x) 和 3?(x) 的 初始 非 参 
数 估计 ,这 要 求人 们 轮流 选择 一 个 初始 的 或 “试验 的 "平滑 参数 来 估计 这 些 未 知 
量 。 初 始 的 平滑 参数 可 以 通过 经 验 法 则 方法 比如 以 上 讨论 的 hh =x, U+ 
(s =1,…,g) 来 选择 。 然 而 ,如 果 初 始 选 择 的 平滑 参数 离 它们 的 最 优 值 h 较 
远 ,第 二 步 插入 的 h° 可 能 也 会 离 h° 比较 远 ,如 同 Loader(1999 ) 所 讨论 的 。 最 
后 , 当 条 件 (2. 21) 不 成 立时 ,插入 法 也 不 再 被 很 好 地 定义 。 我 们 在 下 一 节 证 明 
最 小 二 乘 交错 鉴定 法 是 不 受 以 上 提 到 的 各 个 问题 影响 的 。 可 能 由 于 这 些 原因 ， 
插入 法 经 常 被 用 于 多 变量 非 参数 的 实际 应 用 中 。 


2.2.2 最 小 二 乘 交错 鉴定 法 


在 这 一 节 我 们 介绍 一 个 完全 数据 驱动 的 平滑 参数 选择 方法 ,被 称 为 “局 部 
常数 最 小 二 乘 交 错 鉴 定 法 ”( local constant least squares cross-validation), $f] 
SPE h... h, 来 最 小 化 目标 函数 


CV, (h.,"h,) = n" > (Y, - &.,(X,) )M(X,) (2,23) 


EREA) = Y FKA, - X) 70) / Y KOX, - X) 78) E g (X) 8 5 — 


(leave-one-out) 核 估计 量 , 晶 0<M(:)<1 是 一 个 权重 函数 , 它 用 于 避免 由 被 零 
除 引 起 的 困难 或 者 由 于 边界 效应 引起 的 缓慢 收敛 速度 (定义 于 1.10 节 )。 


在 2. 7 节 我 们 证 明 
CV, (hi, h.) = 8 (G0) + o( tes) ) 
+ (与 不 相关 的 项 ) (2. 24) 
其 中 a, 是 由 h, =an Yi (s =1,…,q) 定 义 的 , 且 


z(a a -[[ sea] f) MG) a 





Ro JG M(x) ax (2.25) 


aa, 

比较 在 式 (2. 20) 给 出 的 X, 和 式 (2. 25) 的 x, 我 们 注意 到 ,如 果 在 式 (2. 20) 
中 取 v(x) =f(z)M(x),JBËZ x, =X。 这 一 点 都 不 奇怪 ,因为 Xx, 跟 下 式 的 首 项 
相关 : 


JELEC) -z(z)] y(a)da (2.26) 


而 Xx 跟 E[ CV,o] 的 首 项 相关 ,其 中 CVee。 = n > (zg, -8&)M; 是 CV 的 首 项 ,g， 


=g(X,)B ë, =g_,(X,). 因此 ,我 们 有 
E[CV,.o] = E{[ĝ; -— g,]"M,| = E|E[(¿, - g.) M.! X.]} 


= |E[(&, - z) M.I X, = z]/(z)dx 


= JELEC) - g(x) J M(z)/(z) dx (2.27) 
其 中 最 后 的 等 式 使 用 了 &, 是 去 一 估计 量 因此 根据 假定 | 乱 ,Y1 U F X 


的 事实 。 比 较 式 (2. 26) 和 式 (2.27) ,我 们 发 现 ,如 果 v(x) =f(x)M(x) ,那么 ， 
它们 是 相同 的 。 
沿 着 2. 2. 1 节 提出 的 分 析 思 路 , 令 a ,… ,a 表示 在 它们 每 一 个 是 非 负 的 约 


束 条 件 下 最 小 化 x 的 a,，,…,a, 值 。 如 同 式 (2. 21) 的 情况 ,我 们 假定 


每 个 a 是 唯一 被 定义 的 、 正 的 和 有 限 的 。 (2. 28) 
A h 代表 最 小 化 E[ CV,.。(h) ] 首 项 的 h, 值 (s =1,…,g) ,那么 
h° = 让 s 1)5 (2.29) 


如 果 我 们 令 有 (s =1,…,g) 表 示 由 交错 鉴定 法 选 出 的 h, 值 ,那么 ,由 于 
CV, (h) =E[CV,  (h)] +(s.0.)+ 与 h 不 相关 的 项 ,我 们 能 证 明 有 =h + 
o,(h")。 因 此 ,我 们 得 到 本 节 的 主要 结果 。 

定理 2.3 在 2.7 节 和 式 (2.28) 给 出 的 条 件 下 ， 

hid T 一 a ( 依 概率 收敛) ， l<s <q 
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m Ey 8; r %@ m G€ 9: = 


p “GV, (Š, ,hh ) s; n! > u M(X,)] 


— inf X(a,…,4,)( 依 概率 收敛 ) 

对 应 用 研究 者 而 言 ,交错 鉴定 法 是 相当 有 吸引 力 的 。 因 为 他 们 不 必 知 道 最 
优 平滑 参数 的 显 性 表达 式 ; 相 反 , 他 们 所 需要 的 是 最 小 化 定义 于 式 (2.23) 的 目 
标 函数 CV, ,这 可 以 通过 任何 标准 的 数值 最 优 方法 求解 。 即 使 h(a ) 没 有 显 式 
解 ,定理 2.3 说 明 通过 交错 鉴定 法 选择 的 平滑 参数 (及 ) 渐 近 等 价 于 确定 性 最 优 
平滑 参数 h ,因而 是 最 优 的 。 

定理 2. 3 的 一 个 严格 证 明 必 须 涉及 证 明 低 阶 项 在 (h,,…,h,) e H, 中 是 一 
致 无 穷 小 的 ,其 中 (h,,…,h,) e H, 定义 于 2.7 节 ,并 且 在 xe suppM(M 的 支撑 ; 
细节 见 Hall 等 (2006) ) 。 然 而 , 当 证 明 某 些 低 阶 项 的 一 致 性 时 ,通过 牺牲 严密 
性 和 省 略 一 些 细节 ,定理 2.3 从 直觉 上 是 容易 理解 的 。 方 程 (2.29 ) 意味 着 
n*o h a. Ti CV, =E[CV,.,] +(s.o.) 的 事实 意味 着 mm 人 4 大 nh + 
(s.o.) =a +o(1) 一 ao,( 依 概率 收敛 ) 。 

假定 式 (2. 28 ) 是 定理 2. 3 成 立 所 需要 的 最 重要 的 条 件 ,我 们 现在 详细 地 讨 
论 这 个 条 件 。 定 义 z= (oj，…a;) Co = K' fo (z) M(zx)dz, 且 令 4 代表 一 个 4 
xq 矩阵 ,其 第 (1,s) 个 元 素 为 

B.G) B.G) f(x) M(x) ax 

我 们 把 式 (2. 25 ) 写 为 


C 
和 (zi ) Z z'Az + ° (2.30) 


z, °°o Z 





D z." z 表示 在 它们 都 是 非 负 的 约束 条 件 下 最 小 化 x, 的 z,,…,z, 值 。 
我 们 想 找 到 保证 z ,… ,z 全 部 非 负 且 有 限 的 条 件 ( 这 等 价 于 式 (2.28))。 可 以 
证 明了 

如 果 4 是 正定 的 ,那么 5 ,…,z, 是 全 部 正 且 有 限 的 。 (2.31) 

注意 ,由 下 式 可 知 4 是 一 个 正 半 定 矩阵 


z'Az = fI Y B, (a)z, | fx) M(x) da > 0 


对 所 有 的 z 成立。 条 件 (2.31) 指出 4 正定 是 za ,…,z 有 限 的 充分 条 件 。 这 里 
我 们 对 式 (2. 31) 给 出 一 个 直观 的 证 明 , 并 且 把 一 个 更 严格 的 证 明 放 在 习题 


”注意 式 (2.31) 是 一 个 充分 条 件 。 一 个 对 地,… ,z 全 部 为 正 且 有 限 的 ( 弱 ) 充 要 条 件 能 够 在 Li 和 
Zhou(2005 ) 中 找到 。 


2.2。 首 先 , 注 意 4 正定 意味 着 对 所 有 s 满足 z < % ,否则 我 们 将 有 xX, = % 。 其 
次 ,对 所 有 我 们 有 z > 0, 否 则 我 们 将 有 Co (za) =om。 因 此 ,我 们 必 
须 有 0 <z, <o ,对 所 有 s=1,…,q 成 立 。 

定理 2.3 仅仅 包括 了 其 中 x 的 所 有 元 素 都 是 相关 的 情况 。 如 同 我 们 在 
2.2.1 节 所 讨论 的 , 当 g=2 以 及 对 所 有 (x,,x,) e R ,g(xi,x;) = 0(x,) f ( x; 
是 一 个 无 关 回 归 元 ) ,那么 式 (2. 28) 不 成 立 。 然 而 ,我 们 能 够 证 明 交错 鉴定 法 仍 
然 产生 最 优 平滑 参数 选择 ,在 这 种 情况 下 最 优 平滑 应 该 有 性 质 h = O, (n7) 
H h,o ,如 同 我 们 将 在 2.2.4 节 证 明 的 。 


2.2.3 AIC, 


Hurvich, Simonoff 和 Tsai( 1998 ) 提出 一 种 不 同 的 窗 宽 选择 方法 ,有 给 人 印 
象 深刻 的 有 限 样 本 性 质 。 他 们 的 方法 是 基于 一 种 改进 的 Akaike 信息 准则 
(AIC , 见 Akaike(1974 ) ) Hurvich 等 的 准则 为 非 参 数 模型 提供 了 一 个 期 望 
Kullback-Leibler 信息 的 近似 无 偏 估计 。Akaike 的 信息 准则 最 初 是 为 参数 模型 
设计 的 ,而 Hurvich 等 的 方法 对 可 以 写 为 结果 的 线性 组 合 的 估计 量 是 有 效 的 , 因 
此 直接 被 应 用 于 广泛 的 非 参数 估计 量 。 他 们 的 准则 由 下 式 给 出 


PE” 1 + tr(H)/n 
人 Itr(H) +2}/n 
其 中 
ĝ’ = D |Y, - &(X,)]? = Y'(I - H)'(1 - H) Y/n 


&(XX,) 是 一 个 非 参 数 估 计量 且 H 是 一 个 nxn ñil 8 P8 3⁄& AEE RE ) ,其 第 
(i,j) G £ H H, = K. > K, a> Ki = II h 'k( (X, An X, )/h,) 给 出 。 


通过 模拟 实验 ,Hurvich 等 (1998 ) 证 明 AIC. 的 窗 宽 选 择 值 跟 插 入 法 ( 当 它 可 
用 时 ) 和 许多 扩展 的 交错 鉴定 法 (Craven 和 Wahba (1979 ) ) 相 比 表 现 得 很 好 。 
然而 AIC. 选 择 值 的 最 优 性 没有 可 利用 的 严格 的 理论 结果 ,Hurvich 等 推测 AIC. 
选择 值 跟 2.2.2 节 提 出 的 最 小 二 乘 交 错 鉴 定 方法 享有 相同 的 渐 近 最 优 性 质 。 
的 确 , 在 Li 和 Racine(2004a) 中 报告 的 模拟 结果 证 明了 这 一 点 ,对 小 样本 „AIC, 
倾向 于 比 最 小 二 乘 交 错 鉴 定 方法 表现 得 更 好 ,而 对 大 样本 这 两 种 方法 没有 明显 
的 差别 。 


2.2.4 无 关 回归 元 出 现 的 情况 


我 们 现在 考虑 其 中 某 些 回归 元 不 相关 的 情况 ( 即 允许 这 种 可 能 性 ) 。 不 失 
一 般 性 ,我 们 假定 仅仅 < 的 前 q 个 元 素 在 如 下 定义 的 意义 上 是 相关 的 。 对 整数 
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S a š 4 É % 


I<q, <q,0<q, Sq -1 WE q, +q, =q,Z- X h X JW q, 个 元 素 构成 且 令 x = 
X/X 表示 的 剩余 元 素 ( 即 它 的 补 集 ) 。 我 们 假定 
(Y,X)E fh sr p X 的。 (2.32) 
式 (2.32) 的 一 个 结论 是 几乎 确定 有 天 [YIX ,下 ] =E[ YIX] ,因此 说 仅仅 包 
含 相关 回归 元 而 仅仅 包含 不 相关 的 回归 元 。 然 而 ,很 重要 的 是 ,我 们 不 用 假 
定 这 是 先 验 上 已 知 的 。 在 实践 中 我 们 用 非 参 数 方法 估计 E[ Y,1X,] ,而 不 是 EE 
[Y,1X,] 。 我 们 将 证 明 如 果 最 小 二 乘 交 错 鉴定 法 被 用 于 选择 平滑 参数 ,那么 渐 


近 的 无 关 变 量 可 以 被 自动 平滑 掉 。 为 了 更 具体 地 知道 “平滑 掉 无 关 变 量 " 是 什 
么 意思 ,注意 





yw JI) TE 


s=1 


KW a= ——— (2.33) 


> pqa y (2.233 


如 果 对 s =q, +1,--,q A h, =% ,那么 对 s =q, +1,…,g 有 k((X, 一 x,)/h,) = 
k(0) ,并 且 因为 上 (0)” "从 有 (xz) 的 分 子 和 分 母 中 消 掉 , 式 (2. 33) 简 化 为 











— (2.34) 
X., —- x, 
> Ip.) 
因此 ,&(x) 将 跟 无 关 变量 z (s= q +1,…,g) 不 相关 。 我 们 在 下 面 的 定理 2.4 
证 明 通 过 交错 鉴定 法 选择 的 窗 宽 确实 具有 这 个 性 质 , 即 对 s=q, + l yd, 当 n 
— B ,h —% 。 因 此 ,交错 鉴定 法 能 够 渐 近 地 自动 消除 无 关 变量 。 换 句 话说 ， 
当 某 些 回 归 元 事实 上 无 关 时 ,交错 鉴定 法 跟 局 部 常数 核 估计 量 的 联合 能 够 自动 
降 维 。 
交错 鉴定 法 目标 函数 在 现在 的 Y=B(X,) +u,(E(u1X,) =0) 情 况 下 , 跟 
2.2. 2 节 定 义 的 是 相同 的 ,也 就 是 条 件 均值 函数 现在 仅仅 依赖 于 相关 回归 元 无。 
类 似 定 义 于 2. 2. 2 节 的 函数 y, 现 在 被 修正 为 (见习 题 2.5) : 





plasan) -[| $ Bi] jomaa 





£ K- [P (E) H(z) ds (2.35) 


a, ... 


其 中 


M(x) = JE G,. s ME tpat) de de 


“ 横 杠 "符号 表示 仅仅 包括 x 的 前 q, 个 元 素 的 函数 。f( f) 是 X(X) 的 边际 密 
度 ,并 且 B, 除 它 仅仅 是 了 的 函数 外 跟 B. 是 以 同样 的 方式 定义 的 。 注 意 不 相关 
元 素 不 再 出 现在 多 的 定义 中 。 

跟 以 前 一 样 , 令 a ,… ,a 表示 在 它们 每 一 个 都 是 非 负 的 约束 条 件 下 最 小 化 
元 的 值 。 我 们 要 求 

对 s=1,… ,gi, 每 一 个 a 是 唯一 被 定义 的 且 有 限 的 。 (2.36) 

由 于 我 们 应 该 考虑 当 no 时 允许 平滑 参数 对 不 相关 变量 从 零 发 散 ,2.7 
节 使 用 的 条 件 不 能 用 于 这 里 。 我 们 使 用 下 面 对 窗 宽 和 核 函 数 的 传统 约束 。 
定义 

H, = (Ia) [| min(h,,1) 

令 0<e<1/(g+4)。 假 定 

n° "<H,,<n “;min(h,,*…,h,) >n HHE C>0 有 max (h, ,**,h,) < 
nc; 核 上 是 一 个 对 称 、 紧 支撑 .Halder 连续 的 概率 密度 函数 ;上 (0) >k(8) 对 所 有 
86>0 成 立 。 (2.37) 

如 果 se 任意 小 ,以 上 关于 h,,…,h, 的 条 件 在 本 质 上 是 当 n 一 % 时 ,有 
nh... h — e „h, h —0 A h, h, —0,3E B. h, F O 的 最 快速 度 不 能 
超过 mn"( 对 某 a>0) 并 且 太 (对 无 关 变 量 ) 趋 于 wo 的 最 快速 度 不 超过 n'( 对 某 b 
>0) 。 在 这 些 条 件 下 我 们 得 到 如 下 结果 。 

定理 2.4 在 式 (2.32) 式 (2.36) 和 式 (2.37) 条 件 下 , 令 六 ,… ,hh 表示 最 
小 化 CV,. 的 平滑 参数 ,那么 

nf 一 a 依 概率 收敛 ,1 <s<g 
P(h, >C)—1,g+1<s<g, 所 有 C>0 

定理 2.4 说明 对 无 关 元 素 的 平滑 参数 依 概率 发 散 到 无 穷 ,因此 ,所 有 的 无 

关 变量 能 够 被 ( 渐 近 地 ) 自动 平滑 掉 , 而 对 有 关 变量 的 平滑 参数 继续 保留 了 如 果 


无 关 变量 不 存在 时 具有 的 相同 的 最 优 性 质 。 
这 里 我 们 提 到 式 (2. 32) 对 定理 2.4 成 立 是 一 个 充分 非 必要 条 件 。Hall 等 


(2006) 的 模拟 结果 报告 显示 如 果 式 (2.32) 被 条 件 “ 在 蕊 条 件 下 ,了 独立 于 万" 
代替 的 话 , 定 理 2.4 的 结果 仍然 保持 成 立 , 尽 管 对 它 的 一 个 严格 证 明 看 起 来 非 
常 有 挑战 性 ,并 且 仍然 是 未 来 研究 的 一 个 主题 。 

定理 2. 4 的 复杂 证 明 由 Hall 等 (2006 ) 给 出 。 这 里 我 们 提出 一 些 来 使 得 定 


(2.38) 
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1 i < g 如 x * = & 


BR 2. 4 Ce 


我 们 把 阶 n = > 的 项 称 作 首 偏 误 项 ,并 且 阶 m, = (nh,…h,) ”的 项 称 


为 首 方差 项 。 Hall 等 (2006) 证 明 无 关 变 量 的 出 现 不 会 对 CV, +W Waw 
生 影响 ,因为 根据 式 (2. 32) ,无 关 元 素 在 比率 及 ,(x) =E[m(x)]/ZE[f(x) ] PM 
失 。 因 此 ,对 于 OCN) 阶 的 首 偏 误 平方 项 ,js(q +1<s<g) 不 再 出 现 。 它 们 对 
首 方 差 项 (O(n, ) 阶 项 ) 的 贡献 是 下 面 核 比率 的 一 个 乘 子 , 由 于 不 相关 元 素 的 存 
在 而 产生 (见习 题 2.5): 





i (2. 39) 
PEA S 
因此 ,CVi.(h,， .,h,) 的 首 项 有 如 下 形式 ( 见 Jm. 5): 


H | Sapa | + [Rh ) MCs) oe 


R(x,h, a," h.) = 





(2.40) 

根据 Holder 不 等 式 ,对 六 ,hs HRA ARA R2 1, WH E , 4 h — o 
BF,R—1(q +1<s<g)。 事 实 上 我 们 有 如 下 的 结论 : 

结论 2.1 当 g, +1<s<g 时 ,对 某 xesuppw, 使 得 R(x,h, ,1,…,h,) =1 





成 立 的 唯一 值 是 hh = = 。 为 了 理解 该 结果 ,我 们 定义 Z, = TI K(i k, Sp 


那么 var(Z,) =E [Z}] -[E(Z,)]*>0, 以 至 于 R=E[Z"]/[E(Z,)]? > 1 ,除非 
fE Z, 的 定义 中 ,所 有 的 h, = o 。 在 这 种 情况 下 ,Z.= 丰 (0)"" 且 var(Z,) =0， 
以 至 于 当 且 仅 当 在 这 种 情况 下 R=1。 

因此 ,为 最 小 化 式 (2. 40) (CV,,(h, ,…,h,) 的 首 项 ) ,注意 平方 误差 和 方差 
项 都 是 正 的 ,我 们 必 有 当 n 一 % 时 R-1, 这 意味 着 我 们 必须 对 发 散 到 无 穷 的 无 
关 元 素 有 平滑 参数 。 因 此 ,无 关 元 素 是 渐 近 平滑 掉 的 。 在 式 (2. 40) 中 使 用 只 = 
1 导出 式 (2.35) ,这 就 意味 着 对 相关 变量 的 平滑 参数 保留 了 在 定理 2.4 中 给 出 
的 最 优 性 质 。 

如 果 使 用 渐 近 最 优 确 定性 平滑 参数 计算 &, 那 么 很 容易 证 明 下 式 依 分 布 
收敛 


(ni )' (Ca) - g8(š) - > B,(z) (h) ) 一 N(0,5 (z) ) 


(2.41) 
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其 中 
i 2 (2.42) 
= ya `. k'a (x) 
a = A 


H T (z) =E(u 1X, =ž). 

下 一 个 定理 说 明 当 使 用 交错 鉴定 法 平滑 参数 而 不 是 渐 近 最 优 确 定性 参数 
时 , 式 (2.41) 给 出 的 渐 近 正 态 性 结论 仍然 成 立 。 

定理 2.5 在 定理 2.4 发 现 的 同样 条 件 下 ,如 果 &(x) 是 使 用 由 交错 鉴定 法 
选择 的 平滑 参数 计算 的 , 式 (2.41) 仍然 正确 , 即 


/np (&(x) _ g(#) = Y B.G) ) £, N(0,x"G*(z)/f(z)) 
定理 2.5 的 证 明 在 Hall 等 (2006 ) 中 给 出 。 它 可 以 被 直观 地 理解 如 下 : 首 
i EEM Á, > o(s = gi +1,…,g) RIIE lxh sh) = B(x,h,,…， 
An) +(s.o.) HEREC, h nhn) EG) 仅仅 使 用 相关 回归 元 的 一 个 核 估 计 
量 。 其 次 ,给 定 事实 有 -h = o,(h')(s = 1,…,g,) ,我 们 期 望 g(x,h，… ,有 ) = 


BCE hsh) +o, > (h)? ) .定理 2.5 来 自 这 个 结果 和 式 (2.41)。 


注意 条 件 (2. 32) 是 非常 强 的 。 它 不 仅 假定 X 独立 于 了 ,也 要 求 X 是 独立 
于 互 的 。 理 想 地 ,人 们 愿意 放松 这 个 条 件 为 (i) ELYIX, X] =E[YIX] 几乎 确定 
成 立 , 或 者 (ii) 在 条 件 无 下 ,了 是 独立 于 X 的 。Hall 等 (2006 ) 猜测 当 式 (2.32) 


被 放松 并 且 被 以 上 条 件 (i) 或 (ii) 取 代 时 ,定理 2.4 仍然 成 立 。Hall 等 报告 的 模 
拟 结果 中 提供 了 一 些 证 据 来 支持 这 个 猜测 。 


2.2.5 关于 交错 鉴定 法 的 一 些 进 一 步 结论 


Racine 和 Li(2004) 也 证 明了 及 /h" -1 的 收敛 速度 , 它 由 下 式 给 出 
hh = " = (2.43) 
h, h , 
其 中 a=min|g/2,2|。 当 g =1 时 ,我 们 得 到 (一刀)/h = O (n), XR 
Härdle 等 (1988 ) 得 到 的 结果 是 一 致 的 。 式 (2. 43 ) 意味 着 及 依 概率 收敛 于 非 随 
机 的 最 优 平滑 参数 h 。 


式 (2.43 ) 表明 , (h, - h')/h = O, (nP) xP q < 4 成立 ,以 及 
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= i 4 k è “i à w w 


(h, -h°)/h = O,(n 0 ) Xt q4 成 立 。 对 (有 -hh )/h 有 两 个 不 同 表达 式 
的 原因 (取决 于 g>4 是 否 成 立 ) 是 ,在 交错 鉴定 函数 CV,.(h,,…,h,) 的 高 阶 展 


开 式 ,我 们 有 阶 o, [| > hs) 项 和 一 个 如 下 形式 的 二 阶 退化 U 统计 晤 

(n(n -1)) ' > > vs K,(X,,X,) 
其 中 E(v1X,) =0, 它 有 阶 0,(n(h…h,)'”); 见 附录 A 对 退化 U 统 计量 的 一 
个 一 般 处 理 。 当 g<4 时 ,0O,(n(h…h,)) H H Ë F O (h°) ,因为 太一 


O, (h) =O,(n t) m q>5 时 ,0O, (有 ) 变 为 占 优 项 。 因 此 ,收敛 速度 不 
同 且 依赖 于 g<4 还 是 g=5( 见 Racine 和 Li(2004) 的 详细 证 明 )。 


23 一 致 收敛 速度 


沿 着 在 第 1 章 1. 12 节 讨 论 的 关于 推导 密度 函数 估计 量 的 几乎 确定 一 致 收 
敛 速度 时 使 用 的 那些 类 似 的 思路 ,我们 能 够 建立 &(*) 对 g(x) 的 几乎 确定 一 致 
收敛 速度 (xe 5) ,其 中 S 是 一 个 RR' 空间 的 紧 集 , 它 排除 了 支撑 的 边界 范围 。 

条 件 2.1 假定 

(i) f(x) 是 可 微 的 ,而 且 g(x) 是 二 阶 可 微 的 ,并 且 导 函数 都 满足 Lipschitz 
条 件 Im(x) -mm(z)1<Clx-2l, 对 某 C >0(m(:)=g,(:)5K /(:))o 

(ü) o°(w) =E(u 1x) 是 一 个 连续 函数 , 且 inff(x) > 5 > 0, 

(ii) 核 k(:) 是 对 称 、 有 界 且 有 紧 支 撑 ( 即 k(v) =0 对 lz1 >1) 的 。 定 义 
H,(v) = lv1'K(v) RHB IH, (v) -有 (wu)1<C,lu-vl, 对 所 有 0<1<3。 

定理 2.6 在 条 件 2.1 下 ,我 们 有 


Li Wa _ (Inn)'2 Ee 
m (x) - g(x) |! [Qa hm + Da) a. s. (2.44) 


R (2.44) 的 证 明 跟 第 1 章 定理 1.4 的 证 明 非 常 类 似 。 通 过 记 &(x) -g(x) 
= 庙 (x)/f(x) ,其 中 页 (x) = (g(x) -g(x) )f(x) ,能 够 证 明 


`, (Inn)'2 
sup | rm (x) | = o[ > h, + Tah h7] a. s. 


同样 ,在 $S 中 密度 不 为 零 时 ,这 个 事实 以 及 定理 1.4 意味 着 几乎 处 处 inf f(x) > 
ô’ > 0, 其 中 5 是 一 个 正常 数 因 此 ， 
sup|&(x) - g(x) |= sup|ñ(x)/f(x) |< sup|m(x) |/|ingf (x) | 


= O((Inn)'?/ (nh, h )'? + Sa) a.s. 


在 细节 上 考察 了 局 部 常数 核 估 计量 后 ,我 们 现在 转向 另 一 种 流行 的 方 
法 一 一 局 部 多 项 式 方法 。 


2.4 局 部 线性 核 估计 


尽管 局 部 常数 估计 量 是 核 回归 的 经 典 方 法 ,但 它 不 是 没有 缺陷 的 。 尤 其 是 
当 在 支撑 边界 附近 估计 一 个 回归 函数 时 它 有 潜在 较 大 的 偏差 。 男 一 方面 ,局 部 
线性 估计 量 由 Stone 和 Cleveland(1979 ) 提 出 ,尽管 它 具 有 局 部 常数 方法 的 许多 
性 质 ( 如 它们 的 方差 是 相同 的 ) ,然而 它 是 修正 边界 问题 最 为 人 熟知 的 方法 之 
一 ,因为 它 的 偏差 不 是 指定 密度 /(x) 的 一 个 函数 ( 见 Fan(1992) ，Fan(1993 ) , 
以 及 Fan 和 Gijbels(1992) ) 。 对 局 部 线性 估计 量 的 一 个 详尽 的 处 理 参见 Fan 和 
Gijbels( 1996 ) 的 优秀 专著 。 

我 们 再 一 次 考虑 如 下 形式 的 一 个 回归 模型 

Y = g(X) +u, J= 1 (2.45) 
回忆 在 2. 1 节 讨 论 的 局 部 常数 核 估 计量 是 由 下 式 给 出 的 





g(x) = 一 一 (2.46) 





它 也 可 以 作为 如 下 最 小 化 问题 的 解 a 来 得 到 : 
min Y (Y, - a)*K[ 2 - 2) (2.47) 


令 6G=a(x) 是 最 小 化 式 (2.47) 的 解 ,人 们 能 容易 看 到 6=&5(x) ,其 定义 见 式 
(2. 46 ) 。 

然而 ,注意 式 (2. 47) 使 用 一 个 常数 e 在 x 的 邻 域 逼 近 g(x)( 或 了 ) ,因为 式 
(2.47) 仅 仅 使 用 Y 的 一 个 局 部 平均 (接近 x 的 XX) 来 估计 g(x)。 由 于 这 个 原 
因 , 定 义 于 式 (2.46) 的 g(x) 被 称 为 一 个 “局 部 常数 " 核 估 计量 。 然 而 ,人 们 可 以 
男 外 使 用 一 个 “局 部 线性 "(或 高 阶 多 项 式 ) 估 计量 来 估计 g(x)。 局 部 线性 方法 
的 一 个 特征 是 它 为 g(x) 的 一 阶 导数 g” (ax) Z Əg(x)/Əx 自动 提供 了 一 个 估计 
量 ,尽管 局 部 常数 的 偏 导 数 估计 量 得 到 了 很 好 的 研究 ;进一步 细节 可 参见 Vinod 
和 Ullah( 1988) , Rilstone 和 Ullah(1989 ) , Hirdle 和 Stoker( 1989), 以 及 Pagan 和 
Ullah(1999 ,4.2 节 )。 

局 部 线性 方法 是 基于 如 下 的 最 小 化 问题 : 


min) (Y, = a = (X, - x) "B)’K( 213) (2.48) 
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x s = h. 1 = < P. gg 


ne JA b =2(x) 是 式 (2.48) 的 解 。 我 们 在 这 一 节 将 证 明 a (x) E 

g(x) 的 一 个 一 致 估计 量 , 且 8(x) 是 5 (ax) = agla) ax 的 一 个 一 致 估计 量 (6 

ee 向 量 ) 。 式 (2. 信 ) 丰 由 的 项 部 线 性 方法 是 答 关 再 多 的 ， 

因为 它 类 似 于 “局 部 最 小 二 乘 " 估 计量 。 因 此 斜率 估计 量 5 估计 了 局 部 斜率 
| OF 

令 6=6(x) =(a(x),(b(x))')', 令 yy 是 有 第 i 个 元 素 为 Y W nxi 维 向 量 ， 

令 Xt 是 一 个 第 i 行为 (i,(X, -x)') 的 nx(1l+9g) 和 矩阵 ,并 且 令 K(x) 是 一 个 第 i 


个 对 角 元 素 为 K[ 一 
可 以 被 写 为 





min( Y- X65)' K(x) (ŅY- X8) (2.49) 


方程 式 (2. 49 ) 是 一 个 标准 的 广义 最 小 二 乘 问题 。 令 65= (6&,6')' 是 (2.49) 
的 解 。 那 么 对 一 个 广义 最 小 二 乘 (GLS) 估 计量 使 用 标准 公式 ,我 们 得 到 
6(x) = (XK(x) X) X Kl) Y 


" | idog Ja. O, -3)5] 








j (2.50) 
PARE 50) 中 给 出 的 koki- ARANRESEAD 
需 的 。 
条 件 2.2 


(i) [XY ,是 独立 同 分 布 ,g(x) 和 f(x) 以 及 oa (x) = E(u 1x) 都 是 二 阶 
可 微 的 。 
(站 ) K 是 一 个 有 界 二 阶 核 。 


(iii) 当 mn 一 om BF, nhh, s h — = H nhh, Y he —+ 0, 
下 一 个 定理 建立 了 5(x) 的 渐 近 正 态 性 。 
定理 2.7 回忆 wx = Ca = [wedo, 定 义 Ra = fik (wv) ?dv, 并 


R< 
nhh., 0 
D(n) -| | 
0, nh, hD, 
Ş = Wasa 0 
0, Kk kao? (z)1,/[ f(x) ] 


其 中 D, 是 第 s 4 X44026 38 H h, 给 出 的 一 个 9 x q X ffi BEBE: ,并且 其 中 1, 是 一 个 
q 维 的 单位 和 矩阵。 那么 在 条 件 2. 2 下 我 们 有 


K; s 2 
lx) - 6(x) -| ) (2.51) 


0 


D(n) 





定理 2.7 的 证 明 在 2.7.2 节 给 出 。 
注意 定理 2.7 意味 着 如 下 不 同 的 收敛 速度 : 





(2. 52) 


d K 
huh Ay b, im Wí ) — N 0, 2 ., 
(nh,h,) "h, LÊ, (z) - g,(x)] | a] q 


(2.53) 

其 中 g,(x) = ág( x) /ëx, 是 Əg (x) /àx 的 第 s 个 元 素 。 
A glx) =âlx) H é, (x) =6,(x) 分 别 表 示 g(x) 和 g,(x) 的 局 部 线性 核 估 
计 。 那么 g(x) -g(x) =O,(m +m"), H (x) - g,(z) = O,(m, + 


nh m = X ksm = (nh,…h,) "1)。 这 是 一 个 标准 结果 , 即 导数 估计 的 收 
化 速度 慢 于 回归 函数 估计 的 收 敏 速度。 为 估计 g(x) 的 第 1 阶 导数 ,收敛 速度 将 
E O,(m +" (六 如] ”)。 我 们 在 2.5 节 讨论 高 阶 导 数 估计 量 。 


为 了 使 偏 误 和 方差 都 收敛 于 0,g(x) 的 一 致 估计 要 求 h, 一 0(s =1,…,g) 并 
H nh,…h, 一 % ;而 为 了 使 导数 估计 量 的 方差 项 收敛 于 0,g,(x) 的 一 致 估计 要 求 


一 个 更 强 的 条 件 ,也 就 是 nh…h, X h? > œ o 


注意 当 潜 在 回归 函数 事实 上 对 x 是 线性 时 ( 即 g(x) = ao +x'a) ,其 中 标量 
ao 和 g x1 向 量 oa, 是 常数 ) ,局 部 线性 估计 量 对 (h,,… h.) 的 任意 值 表 现 出 偏 
误 项 为 0 的 性 质 (见习 题 2.10)。 因 此 , 当 g(x) 对 x 线性 时 ,局 部 线性 估计 量 是 
无 偏 的 。 当 偏 误 为 0 时 ,我 们 能 够 考虑 h, =% (s =1,…,g) ,并 且 很 容易 证 明 在 
这 种 情况 下 局 部 线性 估计 量 退 化 为 a(x) =å +x'& ,其 中 ao 和 ai 分 别 是 a。 和 
a 的 普通 最 小 二 乘 估 计量 (见习 题 2.6)。 因 此 ,如 果 人 们 允许 对 所 有 的 
s=1,…,q, 对 h, 可 以 取 充 分 大 的 值 ,局 部 线性 估计 量 把 最 小 二 乘 估 计量 视 为 一 
种 特殊 情况 。 在 下 一 节 当 我 们 讨论 为 局 部 线性 估计 量 的 交错 鉴定 选择 平滑 参 
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£ = = £ = 4 a f: 


数 时 ,我 们 再 讨论 这 一 点 , 它 对 窗 宽 选 择 和 收敛 速度 都 有 非常 重要 的 意义 。 
2.4.1 局 部 线性 窗 宽 选 择 :最 小 二 乘 交 错 鉴 定 法 


令 &_i.(X) 表 示 去 一 局 部 线性 估计 量 。 也 就 是 令 (&,,6.) 在 如 下 最 小 化 问 
题 中 (a,b) 的 解 : 





min = [F =a = (S = - xy] K| 9) 


la bl; 
其 中 于 二 一 一 j= (1 re]. WA 6.=&-i(X) 是 g(X) 的 去 一 局 部 线 
Mg 
窗 宽 选 择 的 局 部 线性 交错 鉴定 法 是 选择 最 小 化 下 式 的 那些 hh 

CY Bh yh = min 一 了 [了 - £. (X)]M(X) (2.54) 
其 中 好 (.) 是 一 个 权 函 数 。 注 意 目标 函数 (2. 54) 仅仅 包括 g( -) BJ 45 H mu 1 
它 的 导数 ,因此 我 们 仅仅 需要 在 式 (2.74) 中 提出 的 关于 h,,…,h, 的 条 件 , 也 就 
是 说 我 们 不 需要 关于 平滑 参数 的 更 强 条 件 以 保证 g(x) 导数 的 一 致 估计 。 


对 固定 的 x*eR", 我 们 已 经 推导 了 局 部 线性 估计 量 ga) =a(x) 的 渐 近 偏 
误 和 方差 项 ,而 式 (2.52) 意 味 着 


EL&(x) - g(x)]” = [# Y gn] + 





o` (x 


‘h, f(x) 








l tom +m) 
(2.55) 
如 我 们 在 2. 2.2 节 讨论 的 ,交错 鉴定 目标 函数 渐 近 等 价 于 |E[&(z) - 
glx) ] (x)M(x)dx。 使 用 式 (2. 55) ,人 们 可 能 猜测 到 CV 的 首 项 将 是 
CViuo ~ [ELB(x) - g(x)]f(x) M(x) ds 


-le$ eow aoma s OOS 


+ o(m, + 71) (2.56) 
并 且 当 CV,, 的 首 项 确实 由 式 (2.56) 给 出 时 ,这 个 猜测 的 结果 是 正确 的 ( 见 Li 和 
Racine( 2004a) 的 一 个 详细 证 明 ) 。 
类 似 地 ,使 用 2. 2. 2 节 提 出 的 方法 ,我们 把 式 (2.56) 的 首 项 表示 为 nx, 
(al,…，a,) ,其 中 a, WEH h, =a, (ss=1,…,q) ,并 且 


Xu(a ,a,) = [S308)] A Ms) a 


+ [eC Mx) ds (2.57) 


aa, 

令 a a ,表示 最 小 化 xu 的 那些 mw ,… ,a 的 值 并 且 假定 

每 一 个 a° ,是 唯一 被 定义 的 且 是 正 的 和 有 限 的 。 (2.58) 

假定 (2. 58) 排 除了 a ,= m 的 情况 ,这 意味 着 g(x) 不 能 是 一 个 零 函 数 。 
也 就 是 说 我 们 明确 排除 了 g(x) 在 它 的 任何 一 个 元 素 x, 是 线性 的 情况 。 

今 甩 表示 最 小 化 式 (2. 54) 的 ,的 值 ,Li 和 Racine(2004a) 证 明 

ht a , 依 概率 收敛 ， s= 1,,q (2.59) 

式 (2.59) 说 明 局 部 线性 交错 鉴定 平滑 参数 收敛 于 最 优 平滑 参数 ,并 且 相 应 
局 部 线性 估计 量 的 收敛 速度 跟 当 潜在 回归 函数 在 它 的 任意 一 个 元 素 不 是 线性 
时 的 局 部 常数 交错 鉴定 情况 相同 。 

当 g(x) 在 x 的 某 些 元 素 是 线性 时 ,比如 %, ,那么 假定 (2. 58 ) 不 再 成 立 。 在 
这 种 情况 下 , 跟 在 2. 2. 4 节 一 样 ,我 们 也 需要 修正 施加 于 平滑 参数 的 条 件 ,以 至 
于 我 们 允许 对 应 于 线性 进入 gC) 的 那些 回归 元 的 平滑 参数 发 散 到 无 穷 。 那 
么 ,我们 将 期 望 当 g(x) 在 x 是 线性 时 ,局 部 线性 最 小 二 乘 交 错 鉴 定 应 该 有 能 力 
选择 一 个 较 大 的 h, 值 ,而 当 回 归 元 非 线 性 进入 时 选择 相对 较 小 的 h, 值 。Li 和 
Racine(2004a) 报 告 的 模拟 结果 证 明确 实 是 这 种 情况 ,尽管 我 们 没有 看 到 对 这 
个 结果 提供 一 个 严格 理论 证 明 的 任何 工作 。 

具体 地 ,让 我 们 考虑 g=2 且 潜 在 回归 函数 g(x ,x,) =0(x,) + x, 是 一 
个 局 部 线性 函数 (例如 ,关于 x, 线性 ) 的 情况 。 在 这 种 情况 下 ,局 部 线性 交错 
鉴定 法 将 倾向 于 选择 一 个 非常 大 的 h(h, 一 % ) 值 ,而 h =O (n) ( Á E 
O,(n “))。 因 此 局 部 线性 交错 鉴定 法 将 建议 g(: ) 关 于 x, 是 线性 的 。 


2.5 局 部 多 项 式 回 归 





2.5.1 单 变量 情况 


正如 当 我 们 推导 局 部 线性 核 估 计量 时 的 情况 ,我 们 能 使 用 一 个 更 高 阶 的 局 
部 多 项 式 估 计量 来 估计 g(x)。 当 x 是 一 个 单 变量 ,一 个 p 阶 局 部 多 项 式 核 估计 
量 是 基于 最 小 化 如 下 的 目标 函数 : 


l e) 
Eenh T Ë (Y, - bo -bi (X; - z) -= - b, (X; -*)") x K( 





z) 
(2.60) 
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令 b, REIMER (2. 60) K b.(1=0,1,--, p). IA É, titt z(a), E HÉ, 
估计 g” (x) JEP g” (z) =dig(x)/dx' 是 g(x) 的 1(1=1,…,p) 阶 导数 。 

再 一 次 , 式 (2. 60) 是 一 个 标准 的 加 权 最 小 二 乘 问 题 。 令 交 = (1,( -xz) ,… 
(X, -z)”)” ,那么 


6 = 








—)] PELE =) (2.61) 


Ruppert 和 Wand( 1994) 研究 了 b, 的 主要 条 件 偏 误 和 条 件 方差 ,我们 把 它 


总 结 在 下 面 的 定理 中 。 
定理 2.8 令 &(x)=6b(x), 且 令 Z,=1X}".,。 











WR p 为 奇数 ， 
I _ P mt) (x) pl 
E[ë(x) 1 ZJ] - g(x) =h | Te T bi ) (2625 
而 如 果 p 为 偶数 ， 
P = a fe fm (a) (a) 
Elat) Z.] =al) =p" |a, SDI 
mt (x) p+2 
j Graj ati ) (2.63) 
在 任意 一 种 情况 下 , 
P _ cs0 (x) l 
var(ë(x) | Z.) = 二 +o[—) (2.64) 


其 中 c,(j=1,2,3,4) 是 Ruppert 和 Wand(1994) 中 定义 的 一 些 常数 。 

定理 2.8 说 明 主 要 条 件 偏 误 项 依赖 于 p 为 奇数 还 是 偶数 。 通 过 一 个 Taylor 
级 数 展开 论证 ,我们 知道 当 考虑 18 -al h 时 ,一 个 p 阶 多 项 式 展开 的 余 项 应 
该 是 O(hr"') 阶 ,因此 对 奇数 p 的 结果 是 很 容易 理解 的 。 当 为 偶数 时 ,p +1 


是 奇数 ,因此 夕 ,, 项 跟 ! 为 奇数 时 [K(v)v'dv 是 相关 的 ,并 且 因 为 K(v) 是 一 个 偶 


函数 ,该 项 为 0。 因 此 ,h”"* 项 消失 ,而 余 项 变 为 O(h”*)。 由 于 p 要 么 为 奇数 要 
么 为 偶数 ,我 们 看 到 偏 误 项 是 六 的 一 个 偶数 寡 。 这 跟 人 们 使 用 高 阶 核 函 数 的 局 
部 常数 估计 量 情况 类 似 , 它 基于 一 个 对 称 核 函数 (一 个 偶 函 数 ) ,其 中 偏 误 总 是 


h H — AARRE 


概括 起 来 , ERIX, F, RIA 


当 p 为 奇数 时 ,g(x) - g(x) = O,(h”' + (nh) `?) 
当 p 为 偶数 时 ,g(x) - g(x) = 0,(h'°? + (nh)™) 
A g” (xz) =l16b,(x) 表 示 基 于 一 个 p 阶 局 部 多 项 式 拟 合 (1<p) 的 g(x*) 估 
计量 。 下 面 的 定理 说 明了 g”(x) 的 主要 偏 误 和 方差 项 。 
定理 2.9 当 p -1 为 奇数 时 ， 


E[g'" (x) | ¥,] - g” (x) = i TT 
当 p -1 为 偶数 时 ， 
ELR” (x) 1 X] -gP (z) = feri, 


(2.65) 


mt) (x) 


FTV Mil 





me) (x) 


(p +2)! 


x JK, (v)dv 


(p+1) F: 
+ sil rP 1 } 





在 任意 一 种 情况 下 ， 
var[ġ” (x)| X] = [2 s + o( (nk?*! y t) 
其 中 cv=1,2,3,4) 是 在 Ruppert 和 Wand(1994) 中 定义 的 常数 。 
注意 如 果 p -1 是 奇数 ,f"" "(x)//(x) 没 有 出 现在 条 件 偏 误 项 中 。Ruppert 和 
Wand(1994) 也 证 明 当 p -i 是 奇数 时 ,在 边界 处 的 偏 误 跟 位 于 内 部 的 点 的 偏 误 
有 相同 的 阶 。 因 此 , 当 p -i 是 奇数 时 ,局 部 多 项 式 均值 估计 有 吸引 力 的 边界 行 
为 扩展 到 导数 估计 。 然 而 , 当 p -i 是 偶数 时 ,在 边界 处 的 偏 误 比 在 内 部 的 点 大 ， 
且 偏 误 在 f(x) 不 连续 的 点 也 变 大 。 出 于 这 些 原因 , 当 估 计 g” (a) it, RETEN 
严格 设 定 p -LHA R 
定理 2.9 意味 着 ,在 条 件 蕊 下 ， 
当 为 奇数 时 ,& (z) -8 (z) = 0,(h "+ (nh?) 12) 
u p 为 偶数 时 ,8 (x) — g) (z) = 0,(h "+ (nh?) 12) 
使 用 Liapunov 中 心 极限 定理 ,我 们 也 能 得 到 &(x) 和 gg" (x) BJ 883 EZE 
我 们 把 对 渐 近 正 态 性 结果 的 讨论 推迟 到 下 一 节 , 在 那里 我 们 将 讨论 多 元 局 部 多 
项 式 回 归 。 


2.5.2 多 变量 情况 


对 多 变量 回归 元 情况 下 的 一 个 p 阶 局 部 多 项 式 估 计量 是 更 不 方便 用 符号 
来 说 明 的 。Masry( 1996a,1996b) 人 研究 了 多 变量 情况 ,为 g(x) 的 局 部 多 项 式 估 计 


(2. 66) 
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量 及 其 直到 p 阶 的 导数 提出 了 一 些 经 过 仔细 考虑 的 符号 并 得 到 了 几乎 确定 一 
致 的 收敛 速度 和 逐 点 渐 近 正 态 性 结果 。 借 鉴 Masry (1996b) ,我 们 引入 如 下 的 
符号 : 


q 
r = (r, "e r), T| mr l x xr], T = > r, (2.67) 
j=l 
P # J i 
£ = $ X x 8 t 5 > 2. > 
š 4 0<F<p j=0 rz=0 1=0 
(r= r, + +r, =j) (2.68) 
和 
(D'g) (x) = ŽE- (2.69) 
ox Ox" 


使 用 这 种 符号 ,并 假定 g(x) 在 点 x 存在 直至 P+1 阶 导数 ,我 们 能 够 使 用 一 
下 式 给 出 的 阶 为 六 的 多 元 多 项 式 局 部 通 近 g(z) 


z() = D DEl) ees a) (2.70) 
定义 一 个 多 元 加 权 最 小 二 乘 函 数 ， 
> 人 - 2 (s) (X, 
关于 每 一 个 5, 最 小 化 式 (2.71) 6 — 4 É, (x) 的 估计 ,并 且 根 据 式 
(2.70) ,我 们 知道 r15,(x) 估 计 (D'g) (x) AEF (Dg) (x) =r16,(x)。 对 局 部 


线性 核 估计 量 的 多 变量 窗 宽 选 择 的 一 个 一 般 处 理 , 参见 Yang 和 Tschernig 
(1999), 


2.5.3 局 部 多 项 式 估计 量 的 渐 近 正 态 性 


局 部 p 阶 多 项 式 回归 可 以 用 来 估计 出 g(x) 直到 p 阶 的 导数 。 我 们 用 N, 来 
表示 g(x) 不 同 的 1 阶 导数 的 个 数 。 例 如 ,NN。=1,N, =4(9 个 不 同 的 一 阶 导数 )， 
FE N, =g(qg+1)/2(g 个 二 阶 自 导数 和 g(g 一 1)/2 个 交叉 二 阶 导数 ) 。 一 般 公 
式 是 





x - =) (2.71) 


n, = |] et +l-1)! lantap 


q-1 (q - 1) !H "° 

g(x)# N, 个 不 同 的 ! 阶 导数 ,并 且 我 们 使 用 yg(x) 来 表示 这 些 1 阶 导数 

的 Ni x1 向 量 , 使 用 字典 式 排序 。 例 如 , 当 1=2 时 ,我 们 有 NN, =q(q +1)⁄2 个 不 
同 的 二 阶 导数 , 且 Vgl) h FREN 


第 2 章 回 H 








(V) g)(x) = | ôx, ðx, 





Masry ( 1996b ) 使 用 如 下 的 条 件 来 得 到 局 部 多 项 式 估计 量 的 渐 近 正 态 性 
结果 。 

条 件 2.3 

(i) g(x) 有 直到 p+1 阶 的 连续 导数 。 

(ii) k(v) 是 一 个 有 紧 支 撑 的 有 界 二 阶 核 晴 数 。 

Cii) 为 了 表达 方便 , 令 h, =… =h, =h, RE h=O(n U60245), 

定理 2.10 在 条 件 2.3 下 ,对 0</l<g 我们 有 

(aht) PEYO g(a) -V gC) -Arpa (x) bt S n(o 0,72) 
在 o (x) 和 f(x) 的 连续 点 有 f(x) >0, 其 中 m,,,(x) A 和 VV 的 定义 在 2.7 节 
给 出 。 

证 明 : 见 Masry(1996a) 的 定理 5。 口 

如 果 我 们 把 定理 2. 10 跟 定 理 2.8 和 2.9 比较 ,我们 注意 到 定理 2. 10 没有 
产生 取决 于 P-! 是 奇数 还 是 偶数 的 不 同 偏 误 表达 式 。 能 够 证 明 当 9 =1 时 ( 单 
回归 元 情况 ) ,定理 2. 10 的 偏 误 表达 式 跟 定理 2.8 和 2.9 当 P-! 是 奇数 的 偏 误 
表达 一 致 。 当 p - 是 偶数 时 ,定理 2. 10 给 出 的 首 偏 误 项 实际 上 为 0。 因此, 当 
p - 1 是 偶数 时 , 非 零 首 偏 误 项 将 有 阶 O), 2.7 节 我 们 对 p=1 的 情况 
证 明了 这 点 ,那里 我 们 将 证 明 4,,,,(x) =4,,(x) =0, 所 以 ,未 消失 的 首 偏 误 项 
HARO) sO(h'), m K Olt) = O(h)(p=1=1)。 这 跟 定理 
2.7 的 结果 一 致 ,因此 在 定理 2. 10 给 出 的 结果 跟 在 定理 2.8 和 2.9 中 给 出 的 结 
论 是 一 致 的 。 

假定 p -i 是 奇数 ,我 们 有 

MSE(g&'"(x)) = O(h?“*) + (nh’”)™) 

或 者 g” (x) =O (RI + (nh’**) k. 

Masry(1996b) 得 到 了 局 部 多 项 式 估 计量 的 几乎 确定 一 致 收敛 速度 ,我 们 在 
下 一 个 定理 中 报告 他 的 结果 。 

定理 2.11 对 每 一 个 0 三 /三 p ,我 们 几乎 确定 有 
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x w B g x z a 3 % 





nh' + 21 

证 明 : 见 Masry(1996b) 的 定理 6。 口 

跟 我 们 以 前 对 这 个 问题 的 讨论 一 样 ,以 上 的 结果 说 明 , 当 p -1!1 是 偶数 时 , 偏 
误 的 阶 不 是 尽 可 能 地 小 。 例 如 , 当 p -i 是 偶数 时 ,定理 2.11 提供 了 一 个 阶 为 
O(hr…*' ) 的 偏 误 。 当 p -i 是 偶数 时 ,给 定 OCh) 阶 的 逐 点 速度 ,应 该 把 偏 
误 项 从 O ) 减 小 为 O(hr…”) ,尽管 对 于 给 定 模型 的 一 般 结构 这 可 能 相当 
复杂 。 

基于 (最 小 最 大 ) 效 率 的 争论 ,Ruppert 和 Wand(1994 ) 建议 p -1 应 该 被 选 
择 为 奇数 。 当 p - ! 是 奇数 时 ,定理 2. 11 偏 误 的 阶 跟 逐 点 速度 结果 的 偏 误 的 阶 
一 致 。 

对 1=0, 定 理 2.11 给 出 一 致 速度 为 

| V” glx) -VP g(x) | =| g(x) - g(x) | 
= O((In(n)/(nh*))'2 + h”*') 

其 中 g(x) 是 g(x) 的 p 阶 局 部 多 项 式 估 计量 。 我 们 看 到 在 p 阶 局 部 多 项 式 回 归 
中 的 偏 误 是 O(h”* ) 阶 ,并 且 当 p 为 偶数 时 , 它 可 被 进一步 减 为 O(h”**)。 对 p 
:2 , 偏 误 项 类 似 于 对 局 部 常数 估计 量 使 用 一 个 更 高 阶 核 函数 的 情况 。 

对 1=1, 定 理 2.11 为 一 阶 导 数 估 计量 提供 了 几乎 确定 一 致 收敛 速度 

I Vgl) -VV glx) =l g (x) -g (x)| 
= O((In(n)/(nh*?))'2 +h’*') 

类 似 地 ,人 们 从 定理 2. 11 中 能 够 得 到 高 阶 导数 估计 量 的 几乎 确定 一 致 速度 。 

在 这 章 中 我 们 假定 数据 | X, Y | ,是 观测 无 误差 的 。 然 而 ,在 实践 中 数据 
可 能 被 污染 或 测量 有 误差 。 在 非 参 数 的 背景 中 如 何 处 理 测量 误差 有 丰富 的 文 
献 。 不 过 涵盖 大 量 的 这 类 文献 超出 了 这 本 书 的 范围 ,我 们 推荐 感 兴趣 的 读者 参 
Æ Fan 和 Truong ( 1993 ) , Carroll 和 Hall( 2004) ,以 及 Carroll, Maca 和 Ruppert 
(1999 ) 及 其 参考 文献 。 


2.6 应 用 


sup! VPE) - V” g(x) | = o[ [ In(n) ) + — (2.72) 


2.6.1 职业 声望 数据 


我 们 考虑 以 下 使 用 来 自 Fox(2002 ) 在 R 的 汽车 图 书馆 数据 的 例子 (R 开发 
核心 队伍 (2006) ) 。 数 据 集 由 102 个 观测 值 构成 ,每 一 个 对 应 于 一 个 特殊 的 职 
业 。 因 变量 是 加 拿 大 的 职业 声望 ,来 自在 20 世纪 60 年 代 中 期 进行 的 一 项 社会 
调查 的 Pineo-Porter 职业 声望 得 分 。 解 释 变量 是 用 1971 年 美元 测量 的 每 个 职业 


的 平均 收入 。 图 2. 1 画 出 了 这 些 数 据 和 五 个 窗 宽 不 同 的 局 部 线性 回归 估计 , 窗 
宽 分 别 为 低 度 平滑 ,过 度 平滑 , Ruppert, Sheater 和 Wand ( 1995 ) 的 直接 插入 ， 
Hurvich 等 (1998 ) 的 修正 AIC(AIC.) ,以 及 交错 鉴定 法 (Li 和 Racine(2004a) ) 。 
始终 使 用 一 个 二 阶 高 斯 核 。 





低 度 平滑 (10o, nr) 插入 (1.080,75) 

100 100 
É 80 gh É Wi 80 产 ~ 一 全 
` a a a \ 
* “< 9 60 
= TO Ë 40 
20 
0 5 10 15 20 25 30 0 5 10 15 20 25 30 
收入 (K) 收入 (K) 
AIC, #ICV (3.54o, m, 3.456, m) 过 度 平滑 Po, n) 





5 10 15 20 25 30 0 5 10 15 20 25 30 
收入 (K) 收入 (K) 


图 2.1 不 同窗 宽 的 局 部 线性 核 估 计 
注 :AIC, 和 CV 窗 宽 是 几乎 相同 的 ,因此 在 左下 方 的 图 中 两 条 线 看 起 来 像 一 条 。 


在 图 2.1 中 过 度 平滑 的 局 部 线性 估计 是 全 局 线性 的 ,并 且 实 际 上 就 是 所 期 
望 的 了 关于 开 的 简单 线性 最 小 二 乘 回 归 ,而 AIC, 和 CV 准则 看 起 来 为 这 些 数 据 
提供 了 最 合理 的 拟 合 。 


2.6.2 青少年 成 长 


在 1.13.3 节 , 我 们 提 到 青少年 不 正常 的 成 长 能 够 给 孩子 有 某 种 医学 上 的 
问题 提供 一 个 早期 的 警告 。 我 们 使 用 取 自 疾病 控制 和 预防 中 心 (CDC ) 国家 健 
康 和 营养 调查 关于 健康 美国 孩子 的 人 口 数据 来 建立 不 同性 别 的 身高 和 体重 的 
联合 分 布 模型 。 

我 们 现在 使 用 即将 在 第 4 章 简略 介绍 的 混合 数据 局 部 线性 估计 量 为 “年龄 
身高 均值 " 建 模 ,考虑 对 男性 和 女性 身高 和 年 龄 的 潜在 关系 的 回归 函数 。 这 个 
局 部 线性 估计 量 使 用 的 是 根据 Hurvich 等 (1998 ) 的 修正 AIC(AIC。) 准则 选择 的 “93 
窗 宽 并 使 用 一 个 二 阶 高 斯 核 。 年 龄 的 窗 宽 是 7. 63 ,而 性 别 的 窗 宽 是 0。 
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图 2. 2 给 出 了 按 年 龄 和 性 别 的 平均 身高 。 有 趣 的 是 ,注意 直到 大 约 10 一 12 
岁 ,不 同性 别 的 平均 身高 在 视觉 上 是 很 难 区 分 的 ,然后 则 有 明显 的 差异 。 在 参 
数 背 景 下 ,如 果 没 有 对 样本 进行 划分 ,这 种 情况 将 特别 难以 建 模 ,而 非 参数 方法 
可 以 很 好 地 揭示 这 种 差别 。 


身高 (cm) 





2 4 6 8 10 2 14 16 18 2 
年 龄 ( 岁 ) 


图 2.2 年 龄 均值 水 平 


2.6.3 通货 膨胀 预测 和 货币 增长 


在 货币 领域 中 盛行 的 传统 知识 是 货币 增长 应 该 对 通货 膨胀 有 预测 力 。 然 
而 ,实证 结果 压倒 性 地 指出 恰恰 相反 ,也 就 是 说 ,货币 增长 对 预测 通货 膨胀 无 论 
如 何 都 没有 预测 力 。 而 且 , 这 个 发 现 对 样本 期 的 变化 和 不 同 的 计量 方法 都 是 稳 
健 的 ( 见 Leeper 和 Roush(2003),Stock 和 Watson(1999 ) ) 。 这 个 理论 和 经 验 的 
不 一 致 在 宏观 经 济 学 中 是 一 个 很 著名 的 谜 题 。 这 个 领域 的 许多 实证 研究 是 集 
中 于 使 用 如 下 形式 的 线性 向 量 自 回 归 (VAR ) 模 型 得 到 的 预测 

X, = = + B(L)X,., +e, 

Hp X, =(m,,Z,)”,zr, 是 上 时 的 通货 膨胀 率 , 且 Z, 是 货币 总 量 的 增长 率 。 

Bachmeier, Leelahanon 和 Li( 2007 ) 使 用 从 1959 Æ 1 月 到 2002 年 5 月 的 月 
度数 据 ,基于 非 参 数 的 视角 重新 研究 了 这 个 问题 。 使 用 的 货币 总 量 是 MI 、M2 
和 M3 ,以 及 相应 的 M1、M2 和 M3 的 Divisia 金融 服务 指数 ,其 中 通货 膨胀 使 用 
消费 者 价格 指数 来 衡量 。 

使 用 来 自 Bachmeier 等 (2007 ) 的 数据 ,我 们 首先 考虑 使 用 一 个 关于 通货 膨 
胀 和 货币 增长 的 二 元 VAR 模型 的 参数 通货 膨胀 预测 , 随 着 数据 量 的 增加 , 它 使 
用 了 一 种 递归 估计 方法 ;每 做 出 一 个 预测 是 基于 这 样 一 个 模型 , 它 的 估计 使 用 


了 所 有 可 用 的 数据 ,包括 已 经 做 出 预测 的 数据 。 对 每 一 个 模型 以 及 预测 区 间 
(1994 年 1 月 到 2002 年 4 月 ) 都 进行 预测 。 对 s=1,6 和 12 个 月 的 预测 区 间 每 
一 个 模型 的 均 方 预测 误差 ( MSPE ) 都 被 计算 。 使 用 SIC 最 优 滞后 长 度 选择 得 到 
通货 膨胀 和 经 济 增长 的 两 期 滞后 值 ,从 而 预测 方程 是 
T, = Q +AT, +AT, + oAm,, + Qa4Am， + e, 

其 中 m, 可 以 是 这 六 种 货币 总 量 指标 (Am, =m, -m,_,) 的 任何 一 个 。 因 为 稳健 
性 的 缘故 ,我 们 报告 了 货币 总 量 的 一 期 和 二 期 滞后 值 的 结果 ,并且 表 2. 1 和 表 
2.2 报告 了 VAR 模型 两 种 情况 (包括 /排除 每 个 滞后 一 期 和 二 期 的 货币 总 量 ) 
下 的 MSPE 比率 ;小 于 1.00 的 值 意味 着 对 一 个 给 定 的 预测 期 包括 此 滞后 货币 总 
量 改进 了 预测 。 


表 2.1 相对 参数 均 方 预测 误差 (包括 /排除 每 个 滞后 一 期 的 货币 总 量 ) 


区 间 MI M2 M3 MID M2D M3D 
1 个 月 1. 05 1.02 1.06 1.00 1. 00 1. 00 
6 个 月 0. 90 1. 00 1.11 1.00 1.04 1. 06 
12 个 月 0. 93 0. 96 1.09 1.00 1.02 1.04 


表 2.2 相对 参数 均 方 预测 误差 (包括 /排除 每 个 滞后 二 期 的 货币 总 量 ) 


区 间 MI M2 M3 MID M2D M3D 
1 个 月 1.04 0.99 1.04 1.00 1. 00 1. 00 
6 个 月 0. 91 1. 00 1. 10 0. 99 1. 04 1. 07 
12 个 月 0. 92 0. 94 1. 06 1. 00 1.01 1. 05 


表 2.1 和 表 2. 2 显示 通过 包括 货币 作为 一 个 预测 元 没有 明显 的 系统 改进 。 
对 包括 货币 总 量 的 一 期 滞后 ,9/18 预测 更 差 ,3/18 改进 ,6/18 没有 变化 。 对 二 
期 滞后 ,8/18 更 差 ,5/18 改进 ,5/18 没有 变化 。 总 体 来 看 ,使 用 货币 增长 作为 通 
货 膨 胀 的 预测 在 参数 模型 中 可 以 被 看 作 是 相当 弱 的 ,因为 包括 货币 总 量 导 致 更 
低 效 率 的 预测 。 

下 一 步 我 们 把 一 个 参数 AR(2 ) 模型 的 预测 和 一 个 如 下 形式 的 局 部 常数 非 
参数 AR(2 ) 模 型 的 预测 进行 比较 

NM, SECT Ta) +E, 

其 中 &(') 是 未 知 的 。 我 们 对 估计 样本 采用 去 一 交错 鉴定 法 ,然后 使 用 交错 
鉴定 窗 宽 来 生成 我 们 的 样本 外 预测 ,2 了 表 2.3 报告 了 非 参数 AR(2) 模 型 的 相 


© 注意 Bachmeier 等 (2007) 使 用 了 一 个 更 复杂 的 两 步 交错 鉴定 程序 。 因 此 ,这 里 报告 的 结果 与 
在 Bachmeier 等 (2007 ) 中 报告 的 结果 有 微小 的 不 同 ,因为 使 用 了 不 同 的 窗 宽 选择 程序 。 
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w x R 家 5 S * s m 


对 均 方 预测 误差 以 及 参数 AR (2) 模型 的 均 方 预测 误差 。 
R23 非 参 数 AR(2)/ 参 数 AR(2) 的 相对 均 方 预测 误差 


区 间 
1 个 月 0. 98 
6 个 月 1.01 
12 个 月 0. 88 


表 2.3 说 明 1 个 月 和 6 个 月 期 限 的 交错 鉴定 局 部 常数 AR(2) 模 型 跟 参 数 
模型 的 预测 能 力 不 相 上 下 ,但 与 12 个 月 期 限 的 参数 模型 相 比 , 非 参 数 模型 的 预 
测 有 较 大 改进 。 由 于 非 参 数 模型 比 一 个 正确 设 定 的 参数 模型 缺乏 效率 ,这 意味 
着 12 个 月 期 限 的 参数 模型 的 错误 设 定 。 然 后 人 们 会 怀疑 关于 货币 总 量 的 预测 
无 效率 的 结论 实际 上 是 参数 错误 设 定 的 一 个 典型 产物 。 我 们 因此 考虑 一 个 如 
下 形式 的 局 部 常数 非 参数 模型 

T, = g(T T... a Am Am, ) + e, (2.73) 
其 中 &(') 是 未 知 的 ,并 且 我 们 对 窗 宽 选择 仍 使 用 去 一 交错 鉴定 法 。 
K 2.4 和 表 2. 5 给 出 了 非 参 数 模型 的 相对 均 方 预测 误差 ,有 包括 货币 总 量 
97 和 不 包括 货币 总 量 的 。 这 些 表格 显示 当 包括 滞后 一 期 的 货币 总 量 时 ,2/18 的 预 
测 更 差 (在 参数 模型 中 是 9/18) ,9/18 改进 (在 参数 模型 中 是 3/18 ) ,7/18 没有 
变化 (在 参数 模型 中 是 6/18 ) ; 当 包 括 滞后 二 期 时 ,3/18 的 预测 更 差 ,8/18 改进 ， 
7/18 没有 变化 。 在 一 个 非 参 数 模型 中 ,使 用 货币 增长 作为 通货 膨胀 的 一 个 预测 
变量 在 事实 上 是 非常 有 帮助 的 ,因为 总 体 而 言 包 括 货 币 总 量 导 致 更 准确 的 
预测 。 


表 2.4 相对 非 参 数 的 均 方 预测 误差 (包括 /不 包括 滞后 一 期 的 货币 总 量 ) 


区 间 M1 M2 M3 M1D M2D M3D 
1 个 月 1. 07 1. 00 0. 85 0. 92 0. 89 0. 89 
6 个 月 0. 96 0.95 1.15 1. 00 1. 00 1. 00 
12 个 月 0. 96 0. 84 0. 98 1. 00 1. 00 1. 00 


表 2.5 相对 非 参 数 的 均 方 预测 误差 (包括 /不 包括 滞后 二 期 的 货币 总 量 ) 
区 间 M1 M2 M3 MID M2D M3D 
1 个 月 1.07 0.98 1.06 1.00 1.00 0.88 
6 个 月 1.00 0.96 1.07 1.00 1.00 1.00 
12 个 月 0. 99 0. 83 0. 98 1.00 0.97 0.93 
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所 以 ,稳健 的 非 参 数 方法 意味 着 货币 增长 非 线 性 地 影响 通货 膨胀 。 因 此 ， 
前 面 的 那个 谜 看 起 来 是 来 自 使 用 了 误 设 线性 关系 的 一 个 典型 产物 。 


2.7 证 HH 


在 这 一 部 分 我 们 提供 本 章 前 文中 被 省 略 的 一 些 证 明 。 
2.7.1 (2.24) 的 推导 


由 于 我 们 仅仅 考虑 所 有 回归 元 相关 时 的 情况 ,我 们 因此 假定 
[k Ck R slk = 3k ETA o 
nh ih. S t,} (2.74) 
其 中 n, 是 一 个 正 的 序列 ,其 收敛 于 零 的 速度 比 任 何 一 个 多 项 式 对 n 的 倒数 更 
慢 , 并 且 i, 是 一 个 发 散 到 无 穷 的 常数 序列 。 方 程式 (2.74) 基 本 要 求 nh,…h 一 
æ 且 几 一 0(s=1,…,9q)。 
令 5 代 表 o 的 支撑 。 我 们 还 假定 
gC) SOM 有 二 阶 连续 导数 ;o 是 连续 、 非 负 并 且 有 紧 支 撑 的 ;f(:) 
对 xe 5 远离 零 时 是 有 界 的 。 (2.75) 
使 用 式 (2.23) 的 g, =g(X;) ,有 =Ë (X,), HM,=M(X.,) ,我 们 有 
CV,(h.,".,.h.) =n" 2 (g, - Ë.) °M, +2n Ži u,(g, - ĝ:)M, 


+n” > u M, (2.76) 
起 (2.76) 右边 的 第 三 项 不 依赖 于 (h…h,)。 可 以 证 明 第 二 项 有 一 个 比 第 一 项 
更 小 的 阶 (见习 题 2.3) 。 因 此 , 渐 近 地 ,最 小 化 CV, (h) 等 价 于 最 小 化 > [ z, - 
&]*M,, 式 (2.76) 右边 的 第 一 项 。 ü 
我 们 接 下 来 分 析 CV, 的 首 项 。 注 意 
Ë, - g, = (k - g,)/,/f, 


= (å; - gi)f./f. + (s. o. ) 
= ħ;/f; + (s. o. ) 


其 中 mh. = (ë, -— g,)f,o 定义 
m = (n- 1)™ > K, -gf 
并 且 
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rh, = (n - ty": 3 uK, i 
Fi 


其 中 K;ij = I] h 'k( (x; - x;,)/h,) BÉ Z mh, = r + rh ÜN ik, h, f; ' = (Mi + 


fiu) 是 名 - gi 的 首 项 ,因此 ,CVi.(h) 的 首 项 是 CV. (h) =n Y [mi + 


hnl 2 六 Mi。 可 以 进一步 证 明 CV, (h) = E[CV, (h)] + (so.)。 因 此 ， 
E[CV, .(h)] Æ CV, (h) 的 首 项 。 现 在 ， 
E[CV, (hi, sh,)] = El[(m + mu) `f ]M,| 

= E[M:, f M,] + Elh} f M,] (2.77) 
其 中 我 们 已 经 使 用 E[ 训 rr, f M] =0( 由 于 E(uil {X} ,) =0)。 那 么 
E[m? f | X] = E[ (g, - g.)K,. (g, - Bi) Kf 1 X,] 

+n"E[(zg; - g.) Ki f | X] 
= |E[(g, - g,)K, yl x lf |° 


+O (Cnheh,) YA) 


= [|C + ho) ~ eXOKCAX: + ho) do)} + 0(mm) 
= [E BADE] + 0 + mm) (2.78) 
其 中 B.(x) 跟 式 (2.8) 中 的 定义 是 相同 的 ,mi = (ahh, ) "B m, = yw. 
使 用 式 (2.78) 我 们 有 


E(m? f M,) =[{ S BB} A (a) 


+ O(7; + Nm) (2.79) 


接 下 来 ， 
E[ rmi, f M,] = E| f ` M,E[ h} | X,]! 


= n'E|f 'M,E[u Kl ,| X,]| 
= (nh,i-h ) 一 

x FÍ u, [A(X, + hv)?’ (X, + hv) K? (v) dv } 
= (nh,=h,) 


第 2 章 回 H 


x EIS ML[x'f(X)o (X,) + 0(m,) ] | 
= EKSA (Ms) de + Omm) (2. 80) 
把 式 (2. 79) 和 式 (2. 80) 代 入 式 (2.77) 我 们 得 到 
E[CV..(h.,--.A)1= [Í Y B.G] G) MG) ax 





+ a OM) + o(Ta + n.) 


= n ya, a) +o(n (t) (2.81) 
其 中 a,s 是 通过 六 =an (ss=1,…,9) 被 定义 的 , 且 


SÜ) =[{ Y B.G): ] A (a) ds 





PE [o Ce) MC) de (2. 82) 
aa, 


2.7.2 定理 2.7 的 证 明 


我 们 简 述 定理 2.7 证 明 的 一 个 概要 ,而 把 具体 细节 留 作 习题 。 
从 处 理 式 (2. 50) 中 产生 的 一 个 问题 是 


l 
Ek) Jax - x) ') 


是 一 个 ( 渐 近 的 ) 奇 异 矩 阵 ,因此 是 不 可 逆 的 。 我 们 可 以 通过 在 式 (2.50) 中间 
插入 一 个 单位 矩阵 工 ,,， = G`'G, 以 一 种 等 价 的 形式 重 写 式 (2.50) ,并 且 G, = 
l. 0 

Ë p-o ,其 中 Di? 是 一 个 9x9 MERE JE s 个 对 角 元 素 由 A? 给 出 ,我 
们 得 到 (应 用 B-'C=B- 6 G.C = (G,B) 'G,C) 


5(x) = [Enae] DLA; -ao95]] 
x E Jr 
= [ERX ofra | ENCRES - *)' J 


x paila vH vh (2.83) 
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在 证 明 中 使 用 式 (2. 83) 的 优点 是 

Go) 

以 概率 收敛 于 非 奇异 逢 阵 。 因 此 ,我 们 能 够 分 别 分 析 式 (2. 83) 的 分 子 和 分 母 并 
因此 极 大 地 简化 分 析 。 


使 用 由 下 式 给 出 的 一 个 Taylor 展开 
g(X,) = g(x) + (X; — x) 'g' (x) +(X; - x) g ® (x) ( X, — x)/2 + R. (x,X,) 


= (1,(X, - x)”)8(x) + (X, - x)'g2) (x) (X, - x)/2 + R(x,X,) 
102 其 中 oe 


ó) = [= 2 Ks [a sX,- oe Ga 外 


TEDS daa ax,- pJi +e} 


I, (X, — z)' N 
D (X, -x), D° (X, - z) (X, p| 


sa) +|+ È Kual a 


1 ] 
I [a E nul par - x) 


x [(X, -x)'g® (x) (X, - x)/2 + e, + R,(x,X,)] } 


= (x) + [A!*] !|A2 + A2] + (s.o. ) (2.84) 
其 中 


=. (2.85) 
n 


L; (X, - x)' 
ea -x), D(X, - z)(X, Ws 


>K, 
DER drg y = p| -x)'g (x)(X;-x) (2.86) 


PPR Y 
: no a[o- (X, ol i 
且 低 阶 (s. o. ) 项 来 自 
[4] Y KR (x,X,) 


它 有 一 个 比 [4“] 42 更 低 的 阶 。 


习题 2.7 证 明了 4…”=Q+o(1) ,其 中 
Q = | f(%), 


Kf” (xz), | 


使 用 分 块 矩 阵 的 道 , 我 们 得 到 
ia | 1//(x), 
f 


-fP (x)/f (x), A 


下 一 步 , 重 写 式 (2. 84 ) 为 


D(n) (lx) - 8(x)) = D(n)[A'!*] [A + 


A] + (s.o. ) (2.88) 


JE E NLI fA E BE 
R” z Z 1/f(x), 
R = diag(Q ) = | 0, KARRA 
和 
Sn iin 0 | 
0, k? ka (x)f(x)1, 


如 果 我 们 能 够 证 明 以 下 条 件 就 可 以 证 明定 理 2.7: 


(i) D(n)[A""] [A +A] =D(n) 0 [A + 


A] +o,(1). 


(ü) D(n)Q ''[A** +A] =RD(n)[A?” +A] +o,(1). 


s TEN anu (w,/2)/(z) a i 


0 
(iv) D(n)4 “一 N(0,V) 依 分 布 收敛 。 


(i) 到 (iv) 的 证 明 在 下 面 由 四 个 引 理 给 出 。 陈 述 (i) 到 (iv) 意 味 着 


pG) ia - ó(x) -| 
0 


(x,/2)/(z) 》 g(x)h 


| 


= RD(n)[ A? + Ave] a (K,/2) ZeON ae 


0 


= RD(n)A`* +o,(1) — RN(0,V) +o,(1) — N(0,X) 
依 分 布 收敛 ,其 中 = RVR , 跟 在 定理 2.7 中 给 出 的 是 相同 的 X. 
引 理 2.1 D(n)[A'!*] '[A?” +A] =D(n)Q''[A?* +A ”] +0,(1). 
证 明 : 记 D (n) F a i [ 4 十 4.1 = D (n) Q`' [ £=“ * A" J + 


D(n)[(A'*) 7" -Q07] [4 +A], XÆ DA BE BJ 
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s m ed g x # w s x 
D(n)[(A'*)” - Q''][A?” +A] = o,(1) (2.89) 

104 从 4”“=Q@+o(1)( 见 习题 2.7) 我 们 知道 
(A) = 0” +o,(1) (2.90) 


) 方程 式 (2. 90) 意味 着 对 ij =1,2 有 
J. =o(1) 。 为 证 明 式 (2. 89) ,我 们 需要 刀 有 一 个 非常 快 的 速度 。 以 下 我 们 证 
明 Ja =O,(m, +m T: )o 

定义 C= (A; -A (AT) A) …。 使 用 分 块 矩阵 求 逆 以 及 习题 2.7 的 
结果 ,我 们 得 到 


def i 4 l - 
令 J=(4” )”… -07”= 


i A Karta 
j - GAR (AN), G 
| (1/f(z))1, + 0,(m), 0,(n,) 
-f (x)/f(x)” +0,(1), IZ/[x,f(x) +o,(1)] 


因为 根据 习题 2.7(ii) ,有 A =O (m +m )。 方 程式 (2.91) 引 出 


| (2.91) 


16 x =$ | 0, 2739 0, 2 
pa (a. a |. W | Gami 
o (1), o(1)7 
这 证 明 j =O,(m,). #AR(2. 92) RAE 
i. Ó 
D F iia -1 -l 2 A?” = h wsh 1⁄2 9 
(MECA) = PITA +A] = Ci) [| 
O,(m), O,(m)j[[Ar”') [AY 
"lam, oaile heel 
= o,(1) 
因为 根据 习题 2.8 和 2.9， 
(ni On)As” = O,((nh,---h,)'”?m,) = o,(1) 
和 
(nhi h. )'?2O (m,)A2" = (nhh ) nO0, ( (nhh h.) 12) 
= O,(m:°) 
这 证 明了 式 (2. 89)。 口 
105 引 理 2.2 D(n)Q''[A**+A'*]=RD(n)[A?” +A’*] +0,(1)。 


证 明 :注意 R 是 一 个 对 角 和 矩阵 ,其 中 R = diag( Q `') ,我 们 有 
D(n)Q [A + A™] = RD(n)[A’* + A] +0,(1) 
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因为 与 @ ”的 非 对 角 元 素 相 关 的 项 全 部 是 o,(1) 的 : 
(nhi h.) h Ai = nhh, 0O, (hm) = o,(1) 


(nhi: h )' hA = O,(h,) = o,(1) D 


并 且 


(mi 和) ?2(Kk,/2)/(z) 》 g(x)h 


0 


引 理 2.3 D(n)A** +a kijo 


证 明 :根据 习题 2. 8 ,我 们 有 


(mp A = nhh, (ks/2)f(x) X hig,(z) +0,(1) 
并 且 
(mi 2D4 = MnhihO,(m) = o,(1) 
因此 


网 | es 
(mi h.) 2 D,A; 


_ kankuna Ratai, uy É 
0 
512.4 D(nz)4… 一 N(0,Y) 依 分 布 收敛 ,其 中 
Fa Gridi 0 | 
0, kK knf(x)o (xz)7 
证 明 :根据 习题 2.9, 
var( (nh h.) 4 ) =xk"f(x)o (x) +o(1), 
var( (nhi: h.) - D,A3”*) =x<''xxf(x)o`(x)I, +o(1) 
并 且 
cov((nh,-:h ) 4 , (nhh, )'?D,A3*) = o(1) 
因此 ,var(D,4”) =V+o(1)。 同 时 注意 4“ 有 均值 零 ,所 以 根据 Liapunov 中 
心 极限 定理 ,有 D(n) ANO, V) o D 
2.7.3 在 定理 2.10 中 使 用 的 4,,,: 和 V, 的 定义 


我 们 使 用 在 式 (2. 67) 至 式 (2. 69) 中 引入 的 符号 来 定义 
p = [rk(v) dv, y; = rR (v) do (2.93) 


非 参数 计量 经 济 学 


s x< P B s bag a m En 
Mo, 0o hM M, , To 0 To To, 
M M, o Ea M,, r as To ua Fig (2.94) 
M,o M, Pai M,, P, Isa A ' = 


其 中 MA T E N, xmNi 维 的 矩阵 。 例 如 ,Mi =a Xa) Jer na 和 At) 是 
N, xl 和 AN x 1 维 的 并 且 是 从 字典 式 排序 的 中 定义 的 


fuK(v) a JK) 


Ha); = (2) (2.95) 


J.K) do _ Je KC) dv 
fo,K o) dw fiK) 
类 似 地 ,用 K*(…) 取 代 K(*), 可 以 从 M, ,中 得 到 ' 
对 两 个 m x1 维 向 量 C, 和 C, 我 们 使 用 C. G@ C, 来 表示 , 它 的 第 j 个 元 素 为 
CCa Gl, m) WA m x1 维 向 量 ,也 就 是 说 ,名 表示 元 素 跟 元 素 的 乘积 。 
在 定理 2.10 PZLA V, 矩 阵 是 通过 如 下 的 N < N ERRE VÒ N = N, 
定义 的 : 
V=M TM 
107 EZ V, EA N. x N, 维 的 矩阵 ,由 从 X N, + 1 到 和 N, 的 行 与 列 构成。 
例如 ,yo 是 V 的 第 一 个 对 角 元 素 。V, 由 了 的 从 2 到 N+1=4+l 的 行 与 列 构 
Wo V, 由 了 的 从 N +N, +1=q +2 FN, +N, +N, =1 +q +q(q +1)⁄2 的 行 与 
列 构成 ,等 等 。 
可 以 容易 地 核对 当 p =1 时 (局 部 线性 情况 ) ,我 们 有 


Í; 0 
M = 
lg; "3 
K’, 0 
r=] | 
0 K" Knl, (2.96) 


V = MTM = “i ü | 


0, (kK /rk )L, 


其 中 <, = [kv) dv, x« = | 大 (wv) av, 并 且 fs. = Je (o) dv. HE, v, = x H 


V, = (KK È) 方差 [oz(z)M(z)] 包 对 L = 0 和 1 = 1 准确 地 符合 了 定理 
2.7 的 结果 。 

定义 一 个 N, x 1 维 向 量 4, , 其 元 素 按 字母 的 顺序 随 不 同 的 1/(rl) = 
1/(ri! xr! x… xr!) ,5=1 形式 而 变化 。 例 如 2, 是 一 个 由 下 式 给 出 的 N, x1 
维 向 量 


- a (2.97) 


1⁄2 
其 中 是 维 数 为 m 的 向 量 。 
然后 定义 
Mo ,i 
M, pai 
=| 2 (2.98) 


(OM psi 


> 
° 


> 
III 
| 


4 


P 


p(r) © M,,, 
E N, AMA!) (Dg)(x) 的 不 同 导数 ,其 总 阶 数 为 j =p +1: 我 们 使 用 字 
典 式 排序 把 它们 放 在 一 个 N,,, x1 维 向 量 中 ,并 且 我 们 用 m,,, (x) 来 表示 这 个 
向 量 。 例 如 , 当 p=1 时 (局 部 线性 情况 ) ,我 们 有 
1 og(x) 
2 Ox 
og(x) 
m. (zx) = OX OX, (2. 99) 


2 


1 9g8(x) 
2 Ox 
那么 在 定理 2. 10 中 引入 的 4,,,, 是 通过 如 下 的 方程 式 定 义 的 (1=0,…,p): 
Ao 


e A 
BE M” Amp (z) = | >" (2. 100) 





A 


p.p+1 
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< x p * = Ša m P x 


其 中 MH 和 4 分 别 被 定义 于 式 (2.94) 和 式 (2.98) ,并 且 m, (x) 是 紧 随 式 
(2. 98 ) 被 定义 的 。 
当 p =1 时 (局 部 线性 情况 ) ,使 用 式 (2. 96) \ 式 (2.99) 和 式 (2.98) ,我 们 有 
WR Ds Fa (2.101) 
0 4 
使 用 以 上 在 定理 2. 10 中 的 4,, 和 4,, 引 出 跟 在 定理 2.7 中 相同 的 结果 , `M 
然 它们 应 该 就 是 这 样 。 


28 J 题 


习题 2.1 WEHR (2.10). 
提示 :注意 


E [mO AOE aou ° = {sl AD Y 8.82] | 


B= 1M Am; (z) = 


+ var( rh (x) ) 


然后 应 用 式 (2.8) 和 式 (2.9)。 


习题 2. 2 
(i) 对 g=2 考虑 式 (2. 82): 
X(a,,a,) = JL B, (x) + aB, (x) ]° + ZEL VOM 


推导 最 小 化 x(a a) H a 和 a 的 显 性 表达 式 。 

109 (ii) 对 一 般 多 变量 情况 ,x。 可 以 被 写作 ( 见 式 (2.30) ) 

Co 
其 中 4 是 一 个 gxg 的 正 半 定 矩阵 H C。>0 是 一 个 正 的 常数 。 

证 明 当 4 是 一 个 正 半 定 矩阵 时 ,那么 iny, >0。 这 将 意味 着 a, ,a 全 是 
正 且 有 限 的 。 

对 (ii) 的 提示 :这 遵循 在 习题 1. 10 中 使 用 的 相同 的 分 析 思 路 。 

习题 2.3 ”证明 


n™ > u,(g(X,) - ë.,.(X,.) )M(X,) = o,(m, + mi) 


提示 : 记 n '' u,(g, - 8)M, = n"! hh u,( g, - £.) ,M./f, + (s. 0. ) ,然后 


证 明 这 个 首 项 的 二 阶 矩 是 O(n- (w+,))。 


AC saret) = Ar 4 


习题 2.4 ”假定 人 们 在 交错 鉴定 方法 中 不 使 用 去 一 估计 量 。 

(i) 证 明 在 这 种 情况 下 ,对 的 一 个 固定 值 , 当 Ah-*0 时 CV(h) 逼 近 它 的 
下 界 (0) , 即 lim CV(h) =0。 也 就 是 h-0 最 小 化 了 CV(h)。 

(ii) WMR h 任意 接近 于 0, 简 单 地 说 ,&( 蕊 ,六 =0) ,那么 什么 是 相应 的 估 
计量 ? 

我 们 知道 /一 "0 太 快 违背 了 当 no 时 nh,…h, 一 % 的 条 件 。 当 n 一 om 时 这 
样 一 个 估计 量 的 方差 趋向 于 无 穷 。 

习题 2.5 ”这 个 问题 解释 了 定义 于 式 (2.39) 的 R(x,h, u," h.) Wla) 
- g(#) = [&(x) - g(z)]f(x)/f(x) = s(x)/f(x) ,其 中 站 (xz) = h(x) + 
h(x), ñ (x) = n` 2, (g, -g(x))K,., , B m,(x) = n"! > u K, 1 Ks = 


K... K... Ka = [[KC (X, -X)/k) 3PB K... = [] EUC - X) 78.) ,其 中 


s=1 r=qi +Í 


横 线 和 波浪 线 分 别 指 相关 和 不 相关 的 变量 。 


定义 M2,9) = > h' H n... e (nh, hp) o 


(i) 证 明 
E[f(x)] = FEEL K, a] + OCM) 
H. 
var[f(x)] = O(m..,) = o(1) 
因此 ， 
f(x) = f(x)E[ K, u] +o,(1) (2. 102) 
注意 式 (2. 102) 意 味 着 如 下 等 式 : 
I C a mA Al. Ok.) 


f(x) fi)ELK,.] 
其 中 4,(x) = 所 (x)/[f(x)E( K, a) lÆ gla) -z(x) 的 首 项 。 
(ii) 证 明 
E[m(x)] = > WB (EAEL Ka] +o(m.nE( K,...)) 
并 且 


var[,(z)] = OmaMaa ECK, a)l) = o(m. ECK, a)l’) 
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* x zt A Ka = 8 K x 


因此 ， 
ELm(#)"] = | D KB DADER, a) Y 
+o((m,, + m0) [E(K,.)]2) (2.103) 
(iii) 证 明 
E[m,(z)?] = ma” (a)/(x)EL Ks J][1+o(1)] (2.104) 
(iv) 证 明 式 (2. 102) 至 式 (2. 104) 意味 着 
E[A,(x)°] = [ (w72) S BR 


Kk"'T (à) 
nh h. f(x) 
其 中 R(:) S H3K(2.39) E X 03 
111 (v) 使 用 式 (2. 105 ) 和 


cv = |E[&(z) - g(z) ]1f(z)M(z)dx ~ E[ AY (z) ] 


R(x,h a h.) + (s.o.) (2.105) 


我 们 有 
cv~/{ | Y aG]. n 


KT (z) Y ... 
[过 二 eh h.) LG) M(x) dx (2.106) 


WEH hæ (s =q +1,…,g) 最 小 化 了 式 (2.106)。 这 将 导致 R(:) = 1, 


使 用 R=1 证 明 式 (2. 106) 导 致 式 (2. 35) 。 注 意 根据 式 (2.32) ,f(x) =f(z) F (z), 

基于 以 上 的 结果 对 定理 2. 4 给 出 一 个 直观 的 证 明 。 

习题 2.6 

(i) 证 明 如 果 人 们 对 所 有 s =1,…,g EH h, = =< ,那么 局 部 线性 估计 量 
&(z) 等 同 于 最 小 二 乘 估 计量 Go +x"a ,其 中 as A â 是 ao 和 al 基于 也 = a, + 
X/a, + 误差 项 的 最 小 二 乘 估计 量 (注意 对 这 个 问题 我 们 不 必 假定 真实 回归 函数 
gC) Xt a 是 线性 的 ) 。 

(ü) 证明 当 g(x) =a, +x'a Xf x 是 线性 时 ,局 部 线性 估计 量 是 无 偏 的 ( 注 
意 在 这 个 问题 中 你 不 应 该 假定 h, = % ) 。 

习题 2.7 今 A“(1,s=1,2) 如 同 在 2.7 节 中 定义 的 。 证 明 如 下 结果 : 

(i) 4 = f(x) +o(1)。 


(ü) AZ = O,( Y + ( Y h,) (nhi hi) 2) = o(1)。 


(iii) A7 = ksf'" (a) +o,(1), 
(iv) 4 = x,f(x)1, +o(1)。 
注意 (i) 一 (iv) 意 味 着 
fx), 0 
A'* = Q +o,(1),0 = Las, 本 
提示 WEH ELA] =Q +o(1) A K var[A'*] =o(1)。 
习题 2.8 $A (t=1,2) WAE 2.7 节 中 定义 的 。 证 明 如 下 结果 : 


(i) AT? = (ks/2)f(x) > g(x)h + o,(m;)o 


(ü) A?" =0,(7,)。 
提示 : 


(i) 证 明 E[4?*] = (ks/2)f(x) >》 g(x)h + o(m;) 以 及 var[41”*] = 


oln) o 

(ii) 证 明 对 所 有 s =1,…,g,E[ 143*1] = O(n,) JEP Ay A; B s 4" 
元 素 。 

习题 2.9 $A (t=1,2) WAE 2.7 节 中 定义 的 。 证 明 如 下 结果 (”n, = 
(nhi ) ~): 

(i) var( (nh,---h.)' AYU) =x'o`(x)f(zx=) +o(1)., 

(ii) var( (nh h. ) Di42 7 ) =kzak f(x)o (x)1, +o(1), 

(iii) cov( (nh,-:h.)' ?AY7. Di ) =O?) =o(1)。 

注意 以 上 (i) 一 (十 ) 意 味 着 
k'o (x)f(x), 0 _ 

0, knk’ f(x)o?(x)1, 

习题 2.10 证 明 当 g(x) 在 x 是 线性 时 (g(x) =a +x'b) ,g( x) BJ Jay RRE 
估计 量 是 g(x) 的 一 个 无 偏 估 计量 。 

注意 :无 偏 性 是 一 个 有 限 样本 概念 (不 是 渐 近 性 ) 。 因 此 ,人 们 不 应 该 使 用 
变量 变换 和 Taylor 展开 方法 来 证 明 这 个 结果 ,因为 这 些 方法 假定 h 一 0 R. 


n— œ 


var(D(n)A’*) = 


° 


习题 2. 11 Pagan 和 Ullah(1999 pp. 154—155 ) 提出 了 一 种 收入 组 合 的 (对 
数 收 入 和 年 龄 ) 局 部 常数 核 估 计 , 它 基于 n = 205 个 受过 普通 教育 (高 中 ) 的 男性 
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s$ 3 x 3 3 g fd % B 


的 加 拿 大 数据 (1971 年 加 拿 大 人 口 普查 公共 使 用 版 本 ) 。 而 参数 的 二 次 型 的 设 
定 是 全 局 四 的 , 非 参 数 拟 合 反映 了 在 中 位 年 龄 (大 约 38 岁 ) 附 近 的 一 个 “凹陷 ”。 

(i) 计算 并 画 出 局 部 常数 .局 部 线性 和 参数 二 次 型 的 估计 ,对 核 估计 量 使 用 
最 小 二 乘 交 错 鉴 定 法 选择 窗 宽 。 

Cii) 那个 上 四 陷 出 现在 相应 的 非 参 数 估计 中 了 吗 ? 

(iii) 使 用 标准 误 的 渐 近 公式 ( 即 &(*) +20(0&(x))) 沿 着 它们 的 误差 边界 
画 出 非 参 数 估计 。 不 进行 一 个 正式 的 检验 ,那个 四 陷 看 起 来 是 显著 的 吗 ? 

(iv) 哪 一 个 非 参 数 估 计量 ( 即 局 部 常数 或 者 局 部 线性 ) 看 起 来 对 这 些 数据 
提供 了 最 “合适 的 " 拟 合 ? 


”第 3 章 混合 数据 的 
频率 估计 


传统 的 核 方法 典型 地 假定 潜在 数据 在 本 质 上 是 连 
续 的 。 但 遇 到 一 个 包括 连续 和 离散 数据 的 混合 数据 集 
时 ,传统 非 参 数 方法 要 根据 对 应 离散 变量 的 取 值 把 数 
据 划 分 为 “单元 ”(cells) ,然后 根据 手中 的 问题 使 用 每 
一 个 单元 的 数据 来 估计 一 个 概率 函数 或 一 个 回归 函 
数 。 从 现在 起 我 们 将 把 这 种 方法 称 作 一 种 “基于 频率 ” 
的 方法 。 然 而 ,理论 和 实践 上 均 有 很 强 的 原因 支持 对 
一 个 连续 和 离散 混合 的 数据 类 型 应 用 核 平滑 方法 ,其 
中 连续 和 离散 的 数据 都 被 以 一 种 特殊 方式 平滑 。 这 种 
平滑 方法 ,不 同 于 下 面 介 绍 的 频率 方法 ,将 在 第 4 章 中 
讨论 。 

为 给 在 第 4 章 中 出 现 的 材料 打 好 基础 ,我 们 首先 对 
严格 离散 变量 的 情况 讨论 概率 函数 和 回归 函数 的 传统 
的 ( 即 基于 频率 ) 非 参数 估计 ,然后 我 们 在 3. 3 节 讨 论 基 
于 频率 的 离散 和 连续 变量 混合 的 情况 。 在 这 一 章 中 我 
们 使 用 频率 ( 非 平滑 ) 方 法 来 处 理 离散 变量 。 从 理论 角 
度 来 说 ,频率 方法 很 容易 处 理 , 因 为 得 到 收敛 速度 和 渐 
近 正 态 性 是 非常 直接 的 。 然 而 ,人 们 很 快 认识 到 , 当 样 
本 规模 相对 于 离散 单元 的 数量 不 大 时 ,频率 方法 在 实践 
中 是 有 问题 的 ,这 自然 引出 在 第 4 章 中 要 介绍 的 方法 ,其 
中 我 们 展示 了 通过 一 种 特殊 的 方式 平滑 离散 变量 ,人 们 
怎么 能 够 经 常 得 到 比 基 于 频率 方法 产生 的 更 好 的 估计 
结果 ,特别 是 当 单 元 数 很 多 时 。 
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3.1 离散 数据 的 概率 函数 估计 


当 一 个 随机 变量 以 概率 p(x) 取 离 散 值 时 ,函数 p(x) 一 般 被 称 作 “概率 
函数 "(回忆 我 们 把 连续 的 相应 部 分 称 作 一 个 “概率 密度 芭 数 ”, 以 f(x) 表 
示 ) 。 使 用 上 标 d 来 表示 一 个 离散 变量 ,我 们 考虑 一 个 r 维 离散 随机 变量 X: ,并 
HS 针 表 示 它 的 第 s(s =1,…,r) 个 元 素 。 假 定 X: 有 有 界 支撑 ,那么 ,不 失 一 般 


r 


性 ,我 们 假定 和 的 支撑 是 10,1,2,…,c, - 1| ,所 以 于 的 支撑 是 S = |] 10,1, 


s=1 


2,…,c, -1|, 其 中 >=2(0s=1,…,r) 是 一 个 正 整 数 。 我 们 使 用 1(') 来 表示 通 
常 的 示 性 函数 (x e S ) , 它 假定 (: ) 为 真 时 值 为 1 ,否则 为 0: 


dd 
1(0X4 = <°) -| S (3.1) 
0, 其 他 
那么 ,对 任意 <° e S ,我们 通过 下 式 估计 概率 函数 p( x°) 
Pa) = TF (X = z) (3.2) 


方程 式 (3.2) 是 p(x”) 的 标准 和 著名 的 “频率 估计 量 ”"。 注 意 如 果 我 们 把 
1(X =x“) 看 作 是 一 个 非 平滑 核 函 数 的 话 ,这 个 估计 量 确实 跟 在 式 (1.8) 中 给 出 
的 连续 数据 的 核 估 计量 具有 非常 强 的 相似 性 。 很 容易 看 出 

E[p(x*)] = E[1(X: = x°)] 
= p21 = x )p(x') 
= pla“) 
因此 ,jp(x") 是 无 偏 的 。 同 样 
var(p(x°)) = n 'var(1( X° = x°*)) 
= n [EN = x°)) - (E1(X! = z°))°] 
=m [px ) -p (z°)°] 
= np(x")(1 - p(x")) 
其 中 我 们 使 用 了 P(C) =1(:) 这 个 事实 。 因 此 ， 
MSE(B(x°)) = n'p(<')(1 -p(x")) = O(n`) 
这 意味 着 
p(x) - p(x) = 0,(n™”) (3.3) 
进一步 ,根据 Lindeberg-Levy 的 中 心 极限 定理 ,我 们 有 


Jaltas) - plat) ) > NCO, plat) (1 — p(x))) (3.4) 
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# Ni g g šN g Ww: #° w 


注意 以 上 的 计算 和 我 们 在 第 1 章 中 的 均 方 误差 ( MSE ) 计算 是 一 样 的 ,当时 
我 们 考虑 抛 硬币 的 概率 估计 量 (=P(H))。 式 (3.3) 和 式 (3.4) 表 明 , 对 包括 
离散 变量 的 非 参 数 估计 ,收敛 速度 比 包括 连续 变量 的 非 参 数 估计 的 情况 更 快 。 
这 个 结果 的 原因 是 非常 简单 的 ,因为 它 来 自我 们 的 假定 x 的 支撑 是 有 限 的 。 因 
此 ,对 任何 x e SS, RIIA p(x) >0, 并 且 在 这 个 独立 随机 抽取 的 Xi:,… ,Xs 
中 ,平均 而 言 有 np (2) = 0(n) 个 观测 值 ,其 取 值 为 x*”。 因 此 ,我 们 的 估计 量 
P(x ) 以 0,((np(x" ))-" ) =0,(n"”) 的 参数 速度 期 望 收敛 于 p(x )。 有 限 支 
撑 假 定 意味 着 我 们 仅仅 有 有 限 多 的 待 估 参 数 (p(x") ,x e 5")。 这 在 本 质 上 是 
一 个 参数 模型 (因为 当 样本 规模 增加 时 参数 的 数量 不 增加 ) 。 因 此 ,我 们 自然 得 
到 Vn 的 速度 ,也 就 是 标准 的 参数 收敛 速度 。 在 统计 学 中 也 存在 大 量 的 文献 来 处 
理 当 样本 规模 增加 时 离散 单元 的 数目 也 增加 的 情况 ,即使 当 n 一 % 时 ,在 每 一 个 
单元 中 观测 值 的 数目 也 是 有 限 的 ,这 就 是 所 谓 的 稀疏 渐 近 性 框架 ,我 们 推荐 感 
兴趣 的 读者 参考 Simonoff( 1996) 。 在 本 书 中 我 们 不 再 进一步 研究 这 种 情况 。 


3.2 有 离散 回归 元 的 回归 


考虑 一 个 由 下 式 给 出 的 只 有 离散 回归 元 的 非 参 数 回归 模型 
Y, = g( X°) + u, (3.5) 
其 中 Xie Su 是 独立 同 分 布 ,其 均值 为 零 且 E(w 1X =ar) =o (a) RK 
虑 误差 过 程 是 条 件 异 方差 的 并 且 形 式 未 知 。 对 任意 x e 5S", 我 们 用 下 式 估 
计 gla“) 


a d 1 > d 4 ~ d 
E(x) =D YAG = z) /p(25) (3.6) 
其 中 5(x") 在 式 (3.2) 中 被 定义 。 
容易 证 明 
E(x“) -g(x ) = O(a") (3:7) 
并 且 
Vn(B(x°) - g(z2)) SN(O0,0*(x’) /p(x’)) (3.8) 


通过 观察 到 > [z(X;) -g(z°)]1(X/ = x°) =0。 式 (3.7) 和 式 (3.8) 的 证 明 是 
相当 直观 的 , 留 给 读者 作为 习题 (见习 题 3. 1) 。 


3.3 混合 数据 的 估计 :频率 方法 


我 们 现在 把 注意 力 转向 离散 和 连续 变量 混合 的 情况 。 我 们 使 用 X: 来 表示 
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一 个 连续 变量 ,因此 记 X; = (X:, XI) e R" xS 。 我 们 定义 f(x) = (x° x°) E: 
( X; ,X;) 的 联合 概率 密度 函数 。 
3.3.1 混合 数据 的 密度 估计 
假定 我 们 有 取 自 九 ' ) 的 独立 观测 值 辣 ,,X,,… AXo SC) 的 一 个 非 参 数 核 
估计 量 由 下 式 给 出 
F) = ED W(X, )1(X = z) (3.9) 


eh W, = (X: ,x ) = [hw(( 训 一 x;)/h,),w(*) 是 一 个 满足 式 (1.10) 的 标 


准 单 变 量 二 阶 核 函数 。 我 们 在 下 一 个 定理 中 描述 f(x) 的 收敛 速度 和 渐 近 
分 布 。 

定理 3.1 对 所 有 x esS ,假定 Kx) = (x° ,x° ) 满 足 跟 在 定理 1. 3 中 给 出 的 
xz) 相同 的 条 件 。 同 时 假定 , 当 nn 一 % BF, h, — 0 (s = 1, =, q), 


nCh=h,) ( X ht) 一 0, 并 且 nh…h, 一 那么 
(i) F (a) -fx) = 0,( X h; + (nhh)? ) e 


(ii) (nh h )'? (Fc) - f(x) - (x,/2) MAOL ) 依 分 布 收敛 于 N(0， 
kf(x)), 其 中 f(x) = 9 f(x ,x )/o(x)? Ef) 对 x; 的 二 阶 导数 ,并 且 其 中 
K; = [o(v)do H < = Je) ae, 

定理 3. 1 的 证 明 在 3. 5 节 给 出 。 从 定理 3. 1 中 我 们 看 到 在 混合 变量 的 情况 


下 /xz) 的 收敛 速度 与 在 包括 只 有 q 个 纯粹 连续 变量 子 集 的 情况 下 是 相同 的 。 
这 是 个 必然 的 结果 ,因为 对 纯粹 离散 变量 的 估计 有 一 个 收敛 速度 O (nal). È 
比 4 个 纯粹 连续 变量 情况 下 的 收敛 速度 更 快 。 因 此 ,在 混合 变量 的 情况 下 


f(x) 的 收敛 速度 是 由 两 个 速度 中 更 慢 的 那个 决定 的 ,也 就 是 由 来 自 g 个 连续 
变量 子 集 出 现 的 收敛 速度 决定 的 。 


3.3.2 混合 数据 的 回归 


以 上 的 频率 方法 也 可 被 用 于 估计 有 离散 和 连续 回归 元 混合 的 回归 函数 。 
Xt x = (x,t) eRR'x5" ,我 们 通过 下 式 估计 g(x) =E(YIX = x) 


B(x) = n > Y.W,(X;,z')1(X; = x°)/f (z) (3. 10) 
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其 中 (x) 在 式 (3.9) 中 被 定义 。 接 下 来 的 定理 给 出 了 (x) 的 渐 近 分 布 。 
定理 3.2 对 任何 固定 的 xs e 5S”, 假定 g(x',x") 满 足 5 在 定理 2.2 中 给 出 的 
g(x") 相 同 的 条 件 , 并 且 也 假定 , 当 n 一 wm 时 ,h, 一 0(s =1,…,g) ,nhi…h, 一 wm 且 


nChi=h,) ( y) 一 0, 那 么 ,我 们 有 


Jahrh, (B(x) =g) - X BAW) SNO, K'o? (x) /f(s)) 
其 中 B,(x) = (Ks/2) [2/.(z)g,(x) +f(z)z, (z) | /f() 3 E3E 8 2.2 中 的 定义 
是 相同 的 ,x = (x“,x") ,并且 g, Ca) Ca) #l g.,(x) Jë g(f) XP x; a 


导数 ,其 中 x, = jro(wWdv 有 x = | (Cv) dro 


这 个 证 明 类 似 于 式 (2. 14) 的 证 明 ( 仅 仅 有 纯粹 连续 变量 的 情况 ) , 它 被 留 
作 习 题 ( 见 习题 3.2) 。 

从 定理 3. 2 中 我 们 再 一 次 看 到 收敛 速度 是 仅仅 由 跟 连 续 变 量 有 关 的 收敛 
速度 来 决定 的 。 

沿用 在 第 2 章 中 的 分 析 , 人 们 能 再 次 通过 交错 鉴定 (CV ) 方 法 广义 交错 鉴 
定 方法 ,或 者 插入 法 选择 平滑 参数 (h,'s) 。 在 混合 变量 情况 下 为 了 使 非 参 数 频 
率 估计 方法 产生 可 靠 的 结果 ,在 每 一 个 离散 单元 ,人 们 需要 一 个 适当 的 数据 数 
量 。 如 果 离 散 单元 的 数量 相对 于 样本 规模 偏 大 , 非 参 数 频率 方法 可 能 如 同 预期 
的 那样 是 非常 不 可 靠 的 。 


3.4 关于 频率 方法 一 些 要 注意 的 说 明 


在 这 章 我 们 已 经 证 明 ,理论 上 对 一 个 非 参 数 估计 框架 加 入 离散 变量 (有 有 
限 支 撑 ) 是 没有 问题 的 ,因为 非 参数 频率 方法 ( 仅 有 离散 变量 时 ) 有 0, Cn?) 
的 收敛 速度 ,这 比 跟 q 个 纯粹 连续 变量 子 集 相关 的 收敛 速度 更 快 。 然 而 ,很 明 
显 的 是 , 非 参数 频率 方法 仅仅 在 人 们 有 一 个 大 的 样本 并 且 离 散 变量 取 有 限 多 的 
值 时 , 即 在 离散 单元 的 数目 比 样本 规模 小 很 多 的 情形 下 是 有 用 的 。 然 而 ,对 于 
许多 经 济 学 数据 集 , 人 们 经 常 遇 到 离散 单元 的 数目 接近 于 甚至 大 于 样本 数目 的 
情况 。 显 然 ,划分 样本 的 频率 佑 计量 不 能 用 于 这 样 的 情况 。 

为 进一步 解释 这 一 点 , 令 M 代表 跟 离 散 变量 有 关 的 单元 数量 。 即 使 在 简单 
应 用 中 ,M 也 可 能 是 几 百 甚至 几 千 。 例 如 ,如 果 人 们 有 包括 一 个 人 的 性 别 
《OZ1)、 职 业 的 行业 (比如 ,1 一 20) ,以 及 宗教 信仰 (比如 ,1 一 5) 的 数据 ,那么 这 
个 简单 的 出 现 三 个 离散 变量 的 情况 给 出 了 2 x20 x5 =200 个 单元 。 在 每 个 单 
元 中 观测 值 ( 有 效 样 本 大 小 ) 的 平均 数 是 nr = nMH。 由 于 M 是 一 个 固定 有 限 数 
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m w a z t: 2 et 分 >. 


(无 论 多 大 ) , 渐 近 地 ,我 们 有 n/M = 0(n)。 因 此 ,有 效 样本 大 小 是 n 阶 的 。 即 
使 M=1000000,n/M 仍然 是 0(n) 阶 的 。 然 而 ,对 一 个 单 变量 连续 变量 ,用 于 
估计 的 有 效 样本 大 小 是 nh = 0(n”“) 阶 的 (如 果 h=0(n”“))。 渐 近 地 , 对 任 
何 一 个 正常 数 c 和 MM,cn“ 是 比 n/M 更 低 的 阶 。 因 此 ,对 离散 变量 的 渐 近 有 效 
样本 规模 大 于 对 连续 变量 的 情况 。 因 此 ,有 离散 变量 的 非 参 数 估计 比 连 续 变量 
的 情形 有 更 快 的 收敛 速度 。 

然而 在 有 限 样本 应 用 中 ,情况 可 能 相当 不 同 。 就 在 小 样本 应 用 中 的 有 效 性 
而 言 , 对 离散 变量 的 情况 ,Vn 的 速度 可 能 提供 一 个 易 误解 的 影响 。 让 我 们 考虑 
一 个 有 5 个 离散 变量 ,样本 大 小 为 n=500 的 一 些 人 为 的 数据 ,并 进一步 假定 这 
5 个 离散 变量 分 别 取 2,2,5,5 和 5 个 不 同 值 。 在 这 个 例子 中 ,这 5 个 离散 变量 
出 现 产 生 的 离散 单元 的 数目 是 2x2 x5 x5 x5 =500。 因 此 ,在 每 个 单元 中 观测 
值 的 平均 数 ( 有 效 样本 大 小 ) 是 n/500 = 500/500 =1, 这 太 小 以 至 于 不 能 产生 任 
何 有 意义 的 非 参数 估计 ( 即 如 果 人 们 使 用 频率 方法 ) 。 然 而 ,为 保证 有 一 个 连续 
变量 的 准确 的 非 参数 估计 ,nm =500 当然 是 足够 大 的 。 如 果 g =1(r=0, 即 没有 
离散 变量 ) ,那么 对 于 有 一 个 连续 变量 ,在 非 参 数 估计 中 使 用 的 样本 大 小 是 
mn ”=500”“~144 ,这 与 以 上 在 离散 变量 的 例子 中 (单元 的 数目 等 于 500) 有 效 样 
本 大 小 为 1 相 比 , 它 要 大 得 多 。 

在 第 4 章 中 ,我 们 讨论 一 种 不 同 的 方法 ,那里 我 们 也 使 用 了 由 Aitchison 和 
Aitken( 1976) 首先 提出 的 一 种 特别 方法 来 平滑 离散 变量 。 我 们 扩展 了 Aitchison 
和 Aitken 的 方法 来 研究 离散 和 连续 变量 混合 的 非 参 数 回归 和 条 件 密 度 估 计 。 
我 们 还 给 出 一 些 实证 应 用 来 说 明 , 当 跟 一 些 经 常 使 用 的 参数 方法 相 比 较 时 ,这 
种 平滑 方法 也 能 提供 较 好 的 样本 外 的 预测 。 


3.5 证 明 


3.5.1 定理 3.1 的 证 阴 
证 明 对 以 下 内 容 , 我 们 使 用 下 面 的 缩 略 符号 


f(x + hv,x’) = f(xi + hu," + hv, x°) 
使 用 跟 定 理 1.3 的 证 明 相 同 的 推理 ,我们 有 
E[f (x)] = E[W,(X:,s')1(X71 = s“)] 


= OR Aya > Ja, ayw [8 — "ica = x") dx 





= (h. A)" At, w jas 
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ë, Ey g B Gy bad m 3 到 


= Ja + hv,x*)W(v) dv 


= f(x x) + (3/2) Y fa Ca) h? + O( Š h?) 
下 一 步 , 通 过 跟 定 理 1.4 的 证 明 相同 的 论证 ,我 们 有 
var( f (x)) = n`'var[ W,(X,,z°)1( XI = x")] 


(oa {a| w (FEE) ao =a] 
_ fe] P ia: = *)]} ) 
Cah 1 > Ja.) 

x Wa = ajda 

-| Ess W)C = xz)dxi] 1 


= (nh, sh,) {fx xt) [W () do + OCh ,eh )} 


= (nhi,***,h,)™ {x'f(x) + O(h,,*" sh )} 
(由 于 [WwW (vw) ds = [fee] = r’) 


以 上 结果 证 明了 bias( 了 (x)) = O( Y W) Ħ var( F (*)) = O(Cah, =, 


h) 因此 ,MSE( 了 (x)) = 0 ( ( 0] + (mh,，…,h,)”) ,这 意味 着 定理 


3.1 (i) 成 立 。 
(ii) 部 分 来 自 跟 以 上 给 出 的 同样 的 论证 ,应 用 Liapunov 中 心 极 限定 理 ( 见 
定理 1.3 的 证 明 ) 即 可 证 明定 理 3.1(ii) 。 口 


3.6 J 题 


习题 3. 1 证 明 式 (3.7) 和 式 (3.8)。 
提示 : 记 
B(x°) - g(x) = (E(z) - g(a*))p(z° ')/p(x*) = m(x°!)/p(x°) 
现在 (Y, =g(X:) +u,), 
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m(x) = n” 2. [g(X2) +u, - g(x!)]1(X2 = x°) 
=n" > uA = x“) (8.115 
因为 > [g(X:) - g(x) ]1(Xf = x°) = O, 
从 式 (3. 11) 中 ,很 容易 看 到 E[ m(x*)] =0 以 及 E[ 元 (x )*] =O(n`') ,这 
意味 着 页 (x“) =0,(n  ”)。 
Ihh, DC) =pl) +0,(n“'”)。 同 时 我 人 有 ZC“) -g(x") =0,(n™)。 
使 用 式 (3. 11) ,很 容易 看 到 El[ 元 (x”)] | =n o (x )p(x”)。 因 此 ,根据 
Lindeberg-Levy 中 心 极限 定理 ,有 nm ) NO, os ) pl)). 因此 ， 
Vn(g(x") - g(x)) = /nm(x*)/p(x°) s, (1/p(x"))N(0,0 (x° )p(x°)) 
= N(0,ə°(x*)/p(x°)) 
习题 3.2 证 明定 理 3.2. 
提示 :类 似 式 (2. 14) 的 证 明 , 记 Zz(x) -g(x) = (g(x) -g(x))f (x)/f (z) 
=ñm(x)/f (x) J m(x) =m (x) + m, (x) ,其 中 m, (x) 和 m, (x) 是 与 第 1 章 的 
Mm (x) A m (ax) 用 相同 的 方式 定义 的 。 证 明 


页 (z) = (kaX2) 》 [f(z)g,(z) + 2/.(x)g,(z) lh? 


+ o, [ Y + (nhh)? ) 
以 及 
(mp )'?m,(z) 一 N(0,x<*o°(x)f(z)) 依 分 布 收敛 
这 些 结果 和 f (z) =f(x) +o,(1) 推 出 定理 3.2。 


第 4 章 ， 混 合 数据 的 
核 估计 


在 第 3 章 中 ,我 们 讨论 了 出 现 离散 变量 时 ,传统 的 基 
于 频率 方法 的 非 参 数 估计 ,同时 也 概述 了 这 类 方法 的 优 
点 和 缺点 。 现 在 把 我 们 的 关注 点 转向 一 种 不 同 的 非 参 
数 方法 , 它 可 以 运用 于 离散 变量 情形 ,这 里 我 们 以 一 种 
特别 的 方式 来 平滑 离散 变量 ,而 不 是 在 第 3 章 中 描述 的 
使 用 传统 的 频率 方法 。 

当 估 计 概 率 函 数 和 回归 函数 时 ,通过 平滑 离散 变量 
而 不 是 采用 传统 的 基于 单元 的 频率 方法 ,我们 可 以 大 大 
地 扩展 非 参 数 方法 的 范围 。 从 统计 学 的 角度 看 ,平滑 离 
散 变 量 可 能 会 引入 偏 误 。 然 而 , 它 也 减 小 了 有 限 样本 方 
差 , 跟 基于 频率 的 估计 量 相 比 , 非 参 数 估 计量 的 有 限 样 
本 均 方 误差 ( MSE ) 会 减 小 。 

在 4.5 节 中 介绍 了 这 种 方法 一 个 特别 值得 注意 的 特 
征 ,其 中 使 用 了 平滑 方法 ,并 结合 了 数据 驱动 的 窗 宽 选 
择 方法 ,如 交错 鉴定 法 来 自动 去 除 “无关 变 量 ”( 无 关 变 
量 的 详细 定义 在 4.5 节 中 给 出 )。 这 是 一 个 重要 的 结 
论 ,因为 在 实际 中 我 们 已 经 注意 到 无 关 变 量 经 常 意外 地 
出 现 。 当 无 关 变 量 存在 时 ,在 第 3 章 介 绍 的 传统 的 频率 
估计 方法 仍然 把 样本 划分 为 许多 离散 单元 ,包括 那些 由 
于 无 关 变量 出 现 而 产生 的 单元 。 相 反 ,交错 鉴定 一 平滑 
方法 可 以 ( 渐 近 地 ) 自动 移 除 无 关 变 量 ,从 而 把 非 参数 模 
型 的 维 数 降低 至 只 和 相关 变量 有 关 。 在 这 样 的 情形 中 ， 
通过 平滑 离散 变量 常常 得 到 得 到 令 人 印象 深刻 的 效率 。 
4.1 节 至 4.3 节 讨 论 了 只 有 离散 变量 的 情况 ,4.4 节 和 
4.5 节 讨论 了 一 般 的 离散 和 连续 变量 混合 的 情况 。 
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非 参 数 计量 经 济 学 


4.1 离散 数据 联合 分 布 的 平滑 估计 


现在 我 们 对 定义 在 X° e Si, Xi 的 支撑 上 的 离散 数据 ,考虑 一 个 概率 函数 的 

核 估计 。 和 以 前 一 样 ,我们 使 用 x” 和 XX 来 分 别 表示 x” 和 XX (i=1,…,n) 的 第 

个 元 素 。 参 考 Aitchison 和 Aitken(1976) ,对 x ,Xe 10,1,…,c, -1| ,我们 定义 

一 个 离散 一 元 核 函 数 为 : 

l- À xi = x 

1(X xtA.) -| (4.1) 
À,/(e, - 1), XI Ax 

注意 当 和 ,=0 时 ,!( 1 ,xz ,0) =1(X: =x) ERER, E A, = (c, -1)Zc,, 

) =1/c, 对 于 所 有 的 xi 和 XY 是 一 个 常数 。 所 以 ,A, 的 值 域 为 


c,—1 





则 1 


[0,(c =1)xe ]。 
对 于 多 元 数据 ,我 们 使 用 一 个 下 面 给 出 的 标准 乘积 核果 数 : 


L(X:,2,A)= [Ii(Xs,x’,A,) 
s=1 


= lI tarte, = 1J i he (4.2) 


其 中 N(x) =1(X4 xf) — ARERR, 4 XA 时 它 等 于 1 ,否则 为 0。 
对 向 量 A = (A,,… ,A,) 的 一 个 给 定 值 ,我 们 通过 下 式 来 估计 p(x"): 


AU) x LS LR xs) (4.3) 

注意 式 (4. 1) 中 定义 的 权重 函数 1(. n, ) 的 和 为 1, 这 保证 了 在 式 (4.3) 中 

定义 的 P(x”) 是 一 个 合适 的 概率 指标 , 即 > B(x") = 1。 同样 注意 如 果 对 所 有 
zle si 


的 1<s<r,A, =0, 那 么 式 (4.3) 将 变 为 在 第 3 章 式 (3.2) 中 定义 的 频率 估计 。 
因此 ,作为 一 种 特别 的 情形 ,我 们 的 平滑 估计 量 p (<°) W £ Y Bü 3 h VF H 
P(x" )。A, 取 它 值 域 的 上 界 值 (c, -1)/Ve, 时 产生 另外 一 种 有 趣 的 情况 ,此 时 ， 
P(x") 与 x' 不 相关 。 在 这 种 情况 下 我 们 说 x'“ 被 平滑 出 去 了 ”( smoothed out), 
于 是 ,相应 的 估计 量 P(x") 关 于 x; 是 均匀 分 布 , 即 对 所 有 的 x pz E 5S" = 10,1,…， 
c -1],# p(x“,,z2) =P(x<, ,2 ) ,其 中 x = (xl, ,x fa i ,x )。 如 果 对 
所 有 的 x“,e S/S OXE x e A/B Ei x eA {E xe B) ,我 们 说 X X: T x, 是 均匀 
分 布 的 

plat, xz) = p(<t,,z2). ,所 有 ze 10,1,.…,c, -1| (4.4) 
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Ed i p ` , ` 


当 估 计 一 个 联合 概率 密度 函数 时 ,使 用 平滑 分 类 变量 至 少 有 两 个 理由 。 首 
先 ,尽管 A,0 会 导致 一 些 估计 偏 误 , 但 它 减 小 了 方差 。 因 此 ,有 限 样本 均 方 误 
差 能 减 小 。 其 次 , 当 X" 关于 x, 均匀 分 布 时 ,A, = (c, - 1)Ze, 有 效率 地 利用 了 这 
个 信息 , 即 它 没有 增加 偏 误 但 减 小 了 方差 。 

以 上 的 观点 强调 了 数据 驱动 窗 宽 选 择 方法 的 可 取 之 处 , 那 就 是 如 果 X° X: 
T x, 是 均匀 分 布 的 , 则 选择 较 大 的 A,, 反 之 则 选择 较 小 的 A,。 这 样 的 结果 就 是 
当 x 是 均匀 分 布 时 ,最 小 二 乘 交错 鉴定 法 有 很 高 的 概率 选择 一 个 大 的 A, 值 。 

在 许多 经 济 数 据 集中 ,离散 单元 的 数量 接近 甚至 超过 样本 的 大 小 ,使 得 频 
率 估计 方法 不 可 靠 或 完全 不 可 能 应 用 。 然 而 ,在 这 种 情况 下 ,人 们 可 以 聪明 地 
使 用 在 式 (4. 3) 中 定义 的 平滑 估计 量 ,因为 在 式 (4.3) 中 我 们 避免 了 当 估 计 p 
(x") 时 把 数据 划分 为 不 同 的 单元 。 

假定 当 næ (s =1,…,r) 时 ,A, 一 0, 容 易 证 明 ( 见 习题 4.3): 


E[j(x)] = plat) + S BA, +0| >) 
(4.5) 
var( (x°) ) = PDU - U +0(n PAN 


其 中 中 ,是 习题 4. 3 中 定义 的 一 些 常数 。 从 式 (4.5) 容 易 看 出 ,如 果 入 = 


o, (n~?) WARMAN) -p(z2))-sN(O,p(z)(1-p(x)))， 即 ,如 果 
A=o(n  ), 那 么 Fx“) 有 和 在 第 3 章 式 (3.2) 中 定义 的 频率 估计 量 p( x°) 相 
同 的 渐 近 分 布 。 

当 处 理 连续 变量 时 情形 也 是 如 此 ,平滑 参数 的 选择 是 极为 重要 的 。 我 们 建 
议 通过 最 小 化 一 个 基于 () 和 p(:) 之 间 差 的 平方 的 判别 函数 来 选择 平滑 参数 


AnA Ei Foti (D = > ) 
= X lG) -pO 
= PGDI - 2 X ps px) + 5 [p(a0) ) 
i 3 [p( °) ]° (4.6) 
其 中 心 = D GOT a = DPG), EE h = Er[P(X')], 这 里 


E, [ ' ] 表 示 关 于 X° 的 期 望 ,而 不 是 用 于 定义 5(:) 中 所 使 用 的 随机 观测 值 
141".,, 因 此, 我们 可 以 通过 用 样本 均值 代替 总 体 均值 E,[ - ] 来 估计 ha: 


k TÈ PO) = lela -DS Y Lu (4.7) 
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非 参 数 计量 经 济 学 


% 3 bN Ea 全 s g R £ 


Jep L, u “LOKI, XSA) P(X) =n Ez L, y pD k AEH. 


A(4.6) HHM A A, 无 关 的 ， 因此 我 们 可 以 选择 A ,… ,入 
来 最 小 化 : 


CV,(A) = in 2b, = X [PANT -2(n(n -1)) > S Ls (4.8) 


令 A,…,A, 表示 最 小 化 式 (4. 8 ) 的 交错 鉴定 法 的 Ao Ouyang 等 (2006 ) 证 
明了 只 要 + 不 是 均匀 分 布 ,那么 M, =o (1)(s=1,--,r)o $ A = 
(A ,…,A,) ' 表 示 平 滑 参数 的 rx1 向 量 。 为 了 推导 出 A, 的 极限 性 质 ,Ouyang 等 
使 用 了 U 统 计量 五 分 解 ,并 把 CV (和 ) 扩 展 为 一 个 和 ,的 多 项 式 以 得 到 如 下 结果 : 


VO) aa Do 
s=1 s=1 


+ 与 À 无关 的 项 (4.9) 
其 中 R, 是 一 个 rxr Br fJ E EE EBE ,A,. 是 一 个 rxl 阶 的 0,(1) 随 机 向 量 。2 
的 显 性 表达 式 在 习题 4. 4 中 给 出 。 如 果 O 是 正定 的 ,那么 ,通过 关于 和, 最 小 
化 式 (4.9) ,我 们 得 到 : 
A = nA, +o (n"t) (4.10) 
方程 (4. 10) 说 明了 对 s=1,…,r 有 A,=0,(n …), 式 (4.10) 成 立 所 需要 的 
关键 条 件 是 N, 是 正定 的 。 下 面 我 们 证 明 当 上 且 仅 当 X" 对 所 有 的 s=1,…,r 关 于 
x, 不 是 均匀 分 布 时 ,02, 是 正定 的 。 
Ouyang 等 (2006) 证 明了 : 
B, AGO = X [Xa pG) -p(s)1} (41) 
其 中 P, ,的 定义 见习 题 4. 4。 
方程 (4. 11) 证 明了 (O 是 半 正 定 的 ,因为 对 所 有 的 入 ,,, 有 A 和 ,02,A, 宇 0。 可 
以 证 明 , 如 果 X" 关 于 它 的 任何 元 素 , 记 为 x/, 是 均匀 分 布 的 ,那么 pi (x°) = 
p(x“), LA B(A) 不 依赖 A,(A, 退出 是 因为 在 B(A) 中 它 的 系数 为 0)。 因 此 ， 
在 这 种 情况 下 GO, 不 是 正定 的 。Ouyang 等 (2006 ) 更 进一步 证 明道 命题 为 真 , 即 
如 果 对 所 有 的 x° , X° 不 是 均匀 分 布 的 , 则 O, 是 正定 的 。 
我 们 用 A,,…,A, 表示 最 小 化 式 (4.8) 的 入,…,A, 的 交错 鉴定 法 的 选择 ， 
从 式 (4. 10) 立 即 得 到 下 一 个 结论 。 
定理 4.1 假定 X 对 所 有 的 s=1,…,r 关 于 x, 不 是 均匀 分 布 的 ,那么 
À, = O (n'),s = vr 
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证 明 :定理 4. 1 的 条 件 表 明 0, 是 正定 矩阵 。 因 此 由 式 (4. 10) 推出 定理 
4. 1。 由 定理 4.1 中 给 出 A, 的 收敛 速度 为 呈 ,从 式 (4.5) 立 即 得 出 以 下 的 结 
果 。 口 

定理 4.2 在 与 定理 4. 1 一 样 的 条 件 下 ,我 们 有 

(i) Pla“) -pz ) =O (n '), 

(ü) n (plat) -p(z2)) NO, px) (1 -p(x’)))。 

定理 4. 2 的 证 明 遵循 定理 4.1, 它 被 留 作 问题 (见习 题 4.6) 。 

定理 4.2 说 明 记 x”) 的 渐 近 分 布 与 频率 估计 量 5(x“) 相 同 。 这 确实 是 人 们 
所 期 望 的 ,由 于 渐 近 上 我 们 有 一 个 无 限 大 的 样本 容量 ,因此 即使 样本 分 割 ,每 个 
单位 仍然 有 无 限 多 的 数据 ,同样 也 是 渐 近 的 。 所 以 ,如 果 样 本 容量 足够 大 ， 
A, ,…,A, 应 该 都 接近 于 0 ,并且 我 们 的 交错 鉴定 估计 量 P(x") 将 非常 接近 于 频 
率 估计 量 B(x")。 然 而 在 有 限 样本 容量 的 应 用 中 ,这 两 种 方法 会 产生 差别 很 大 
的 结果 。 

定理 4. 1 表明 交错 鉴定 的 A, 以 n”' 的 速度 收敛 于 0, 它 与 ,的 最 大 似 然 交 
错 鉴 定 选 择 有 相同 的 收敛 速度 ( 见 Hall( 1981) ) 。 

定理 4.1 没有 包括 一 个 重要 的 情形 , 即 当 对 某 些 se |1,…,r|l X$ X: x, 
是 均匀 分 布 时 的 情形 。 不 失 一 般 性 ,假定 对 s=1,…,r X 关于 x’ 不 是 均匀 分 
布 的 ,并 且 对 s=7 +1,…,r(1<r, <r), X RTF x/ 是 均匀 分 布 的 。 下 面 的 定理 
证 明了 A, 的 渐 近 性 质 依 x! 是 否 均匀 分 布 而 不 同 。 

定理 4.3 BEP ÉF, a, 不 是 一 个 均匀 分 布 ,而 关于 xz， ，…，x， 
是 一 个 均匀 分 布 ,那么 

(i) À, =0,(n7'),s=1, ,ro 

Cii) 对 某 些 0<5<1, 有 limP| À, -2 一 ]>5,s=n +1 ,ra 

定理 4.3 fE Ouyang 等 (2006 ) 中 被 证 明 。 和 定理 4.3 表明 与 均匀 分 布 的 变量 
相关 的 平滑 参数 将 不 会 收敛 于 0, 然而 ,它们 有 很 大 可 能 性 会 取 其 极 大 值 ,以 至 
于 估计 的 概率 函数 对 s =m +1,…,r 满足 式 (4.4) 的 均匀 分 布 条 件 , 并 且 比 没有 


施加 这 些 限制 的 估计 量 更 加 有 效 。 确 定 6 的 精确 值 是 困难 的 。Ouyang 等 报告 
的 模拟 结果 建议 ,对 大 范围 数据 生成 过 程 5 取 值 在 0.6 附近 。 


4.2 离散 数据 的 平滑 回归 


我 们 现在 考虑 一 个 下 式 给 出 的 非 参数 的 回归 模型 ; 
Y, = 5(X) + u, 
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3 t m u x LA 3 = s 


其 中 g(:) 是 一 个 未 知 函 数 ,Xe 5S',E(u1X:) =0 H E(u IX) = o° (X ÉR 
未 知 。 尽 管 式 (4.2) 中 定义 的 核 函数 可 以 用 来 估计 g(x") ,但 是 我 们 建议 在 回 
归 设 定 中 使 用 如 下 另外 一 种 简单 的 核 函数 。 
I(X2,x2. A.) = 并 AR (4.12) 
A,， 其 他 
当 和 ,=0,L(X: x ,0) 成 为 一 个 示 性 函数 ; 当 入 , =1,1(X4,:2,1)=1 是 一 个 均 
匀 权 函数 。 因 此 ,A, 的 值 域 为 [0,1] 。 注 意 , 式 (4.12) 定 义 的 核 权 函数 总 和 不 等 
于 1, 因 此 , 它 不 适用 于 估计 一 个 概率 函数 。 然 而 , 它 不 会 影响 下 面 式 (4. 14) 中 定 
义 的 非 参数 估计 量 &(x) ,因为 核 函数 同时 出 现在 式 (4. 14) 的 分 子 和 分 母 中 ,并 且 
显而易见 地 , 核 函 数 因此 可 以 乘 以 任何 非 零 常数 使 &(x) 的 定义 不 受 影响 。 
通过 使 用 式 (4. 12) ,可 以 得 到 乘积 核 函数 : 
DORA A) = pat” (4. 13) 
其 中 N (x) =1(Xi Axi) (RERO. RIDA F RIH gla): 
n` 3 YEL x, K) 
p(x") 
JPP) =n” E LA, ,A), 当 对 所 有 的 s=1,…,r,A, =0 时 ,我 们 的 估计 
量 退 化 为 在 式 (3.6) 中 给 出 的 频率 估计 量 。 
在 当 n 一 % 时 ,A, 一 0(s =1,…,r) 的 假定 下 ,容易 证 明 &(x’) - g(x") = 
0,[ XA, +n ) .例如 ,正如 在 第 2 章 中 讨论 的 对 单纯 的 连续 变量 估计 量 证 明 


的 情形 , 我 们 可 以 记 glx) - glx) = [glx ) - g(x’)]p(x’)/P(x") = 


g(x") = (4. 14) 


(x°) /B(x ) 。 可 以 证 明 Ella) = 0 | YA.) 和 var[m(z°)] = O(n”) 这 
BIRN ELA (a)? = 0 ( YA? tn” ) ,这 反 过 来 意味 着 页 (x) = 0,( Xa, + 
n] ,同时 通过 与 导出 式 (4. 5) 相同 的 论证 可 以 很 容易 证 明 xz*) = pCa") + 
o, [ Sa, + n-? ) 。 因 此, 我们 有 : 


ilat) _ o, [ Fa, +n") 


sA d __ dy = Z= sk 
(x) - g(x) FES "PETTY 
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= 0,[ Xa, + n" J (4.15) 


现在 我 们 讨论 使 用 交错 鉴定 法 来 选择 和 A,。 我 们 选择 A ,… ,和 A, 来 最 小 化 交 
错 鉴定 法 中 的 残 差 平方 和 : 


CV,(A) = n” by [Y, - ë, (X: ) ]° (4.16) 
其 中 
T > YL(XI,X/,A) 
(X7) = — Y (4.17) 


是 g Xi HR R p. X E p( X20023 4. WITH 和,…， 
À, 表示 最 小 化 式 (4. 16) 的 交错 鉴定 法 选择 的 和 A, ,… ,和 A,。 

在 本 节 我 们 只 考虑 X° 的 所 有 元 素 都 是 相关 的 情形 ,我们 把 潜在 的 不 相关 
回归 元 情形 推迟 至 下 一 节 讨 论 。 同 样 ,在 4.5 节 我 们 将 讨论 有 分 类 和 连续 回归 
元 混合 的 更 一 般 的 情形 。 我 们 从 以 下 的 假定 开始 。 

假定 4.1 

(i) EOR IX) ERAH. 

(ii) 有 唯一 的 (A, ,…,A,) 值 满足 ， 

ZGD [| Y PGG) -el LA))} =0 


zd e Sd 
那 就 是 对 所 有 的 s =1,…,r,A, =0。 
假定 4.1(ii) 意 味 着 g(x) 对 任意 元 素 x, e D, 不 是 一 个 常数 函数 (见习 题 
4.11) ,并 且 它 也 意味 着 对 所 有 的 *=1,…,r,A,=o,(1)。 
下 一 个 定理 建立 了 A ,… ,A, 的 收敛 速度 。 
定理 4.4 基于 假定 4. 1 ,我 们 有 
À, = O (n'), 所 有 s = 1,…r 
Li,Ouyang 和 Racine(2006) 证 明了 定理 4.4。 习 题 4.7 要 求 读者 在 x 是 单 
变量 的 简单 情形 下 证 明定 理 4.4( 也 提供 了 提示 )。 
定理 4.4 证 明了 A 和 ,以 0,(n') 速 度 收 敛 于 0。 在 这 么 快 的 收敛 速率 下 很 
容易 得 到 &(x) 的 渐 近 分 布 ,下 一 个 定理 将 给 出 证 明 。 
定理 4.5 ”基于 假定 4.1, 我 们 有 
Vn(8(x") -g(x ))/ VO (x )/P(x ) — N(0,1) 依 分 布 收敛 
其 中 o (a) =n 2. [Y, -ë(XI)]'L(XI ,x ,A)/B(x") ko? (at) = ELu | X: = <" ] 
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的 一 致 估计 量 。 
证 明 :回忆 频 率 估计 量 z(x") 可 以 从 &8(x") 得 到 ,对 所 有 s=1,…,r 有 入 ,= 
0。 使 用 A, =0,(n”') ,容易 看 出 &8(x) =z(x) +0,(n”')。 因 此 通过 式 (3.8) 可 


Walls) -=g(z)) dalla) -—g(z)) +0 n SNO, a (Cs) /p(s )), 
最 后 ,习题 4.8 WE a (xt) =o°'(x°) +o(1)。 定 理 4.5 可 以 直接 得 出 。 D 
在 下 一 节 我 们 将 讨论 一 个 回归 元 子 集 不 相关 的 情形 。 


4.3 有 离散 回归 元 的 核 回 归 :无 关 回归 元 的 情形 


在 这 一 节 我 们 考虑 这 样 的 可 能 性 ,一 些 回 归 元 在 独立 于 因 变 量 的 意义 上 ， 
它们 实际 上 是 不 相关 的 。 不 失 一 般 性 ,我 们 假定 X 的 前 r,(1<r, <r) 个 元 素 是 
相关 的 ,而 剩余 的 m r-r 个 元 素 是 不 相关 的 。 令 XX 表示 r 维 的 X: 的 相 
关 元 素 ,XY 表示 r, 维 的 不 相关 元 素 。 类 似 Li 4 (2006) 中 所 采用 的 方法 ,我 们 
假定 

(Y,X*) 与 XY 是 相互 独立 的 (4.18) 

g(x" ) 的 核 估计 量 和 CV 目标 函数 的 定义 如 同 4. 2 节 所 给 出 的 那样 是 相同 
的 。 我 们 仍然 用 (A, ,…,A,) 表 示 CV 所 选择 的 平滑 参数 。 在 下 面 的 定理 4.6 中 
我 们 证 明了 (i) 与 相关 回归 元 相关 联 的 平滑 参数 以 上 的 速度 收敛 于 0, 这 与 
当 不 相关 元 素 不 存在 时 mn 的 收敛 速度 是 不 同 的 ,(ii) 与 不 相关 元 素 相关 联 的 
平滑 参数 不 会 收敛 于 0, 但 是 有 很 大 的 可 能 性 收敛 于 它们 的 极 大 值 ,所 以 这 些 不 
相关 的 回归 元 有 很 大 的 可 能 性 被 平滑 掉 了 。 此 外 ,即使 当 n 一 % 时 ,这 些 平滑 参 
数 也 有 可 能 不 收敛 于 它们 的 极 大 值 。 

与 用 于 x” 和 x" 的 符号 类 似 , 我 们 将 用 A 表示 与 相关 回归 元 相关 联 的 平滑 参 
数 , 用 和 表示 与 不 相关 回归 元 相关 联 的 平滑 参数 。 因 此 我 们 有 和 ,= 和,(s = 
1r 和 入 =A (s=l,=-,r,(r,=r-r)),. 同样 ,用 5(*) 和 5(:) 分 别 表示 了 
和 总 的 边缘 概率 密度 函数 。 那 么 根据 式 (4. 18) 我 们 知道 p(x") =p), M 
S 表示 x 的 支撑 ,我 们 对 假定 4. 1 做 出 如 下 修改 

假定 4.2 ”有 了 唯一 的 (A,,…,A，) 值 满足 


5 pa) { Y pG) le) - gG) 11G2,2,2)] =o 


那 就 是 对 所 有 的 s=1,…，,r,A,=0。 

假定 4. 2 保证 与 相关 回归 元 相 联 系 的 交错 鉴定 法 所 选择 的 平滑 参数 将 收 
敛 于 0, 然 而 ,我 们 没有 对 与 不 相关 回归 元 相 联 系 的 平滑 参数 施加 任何 假定 , 除 
了 它们 的 取 值 在 [0,1] 区 间 内 。 
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下 面 的 定理 给 出 了 交错 鉴定 法 所 选择 的 平滑 参数 的 渐 近 性 质 。 
定理 4.6 假定 m>1l,m>1Cr=m+m>2)。 那 么 ,在 假定 4.2 下 ,我 们 有 
À, = O (n), = Ye 
limP(A,, 一 1 À, =1) 宇 a, 某 些 a e (0,1) 

定理 4.6 的 证 明 见 Li 等 (2006)。 

定理 4.6 表明 与 相关 回归 元 相关 联 的 平滑 参数 都 以 n” 的 速度 收敛 于 0, 然 
而 与 不 相关 回归 元 相关 联 的 平滑 参数 有 可 能 取 它 们 的 最 大 值 1。 也 就 是 说 ,不 
相关 回归 元 将 有 可 能 被 平滑 掉 。 在 一 般 情况 下 确定 a 的 准确 值 是 困难 的 。Li 
等 (2006) 报 告 的 模拟 结果 表明 通常 有 60% 的 可 能 性 À, 取 极 大 值 1, 有 40% 的 
可 能 性 A, 取 值 在 0 和 1 之 间 ,s=m +1,…，rs 

注意 当 x! 是 不 相关 回归 元 时 ,和 A, 的 渐 近 性 质 很 难 进一步 详细 描述 ,因为 在 
这 种 情况 下 A. 并 不 收敛 于 0。 因 此 产生 的 &(x“) 的 渐 近 分 布 也 很 难 获得 。 当 人 
们 得 到 A, 的 一 个 相对 较 大 的 值 并 推测 这 可 能 反映 了 这 样 的 事实 , 即 x? 是 不 相 
关 回 归 元 时 ,人们 可 能 对 原 假 定做 一 个 正式 的 检验 , 也 就 是 x, 确实 是 一 个 不 相 
关 回 归 元 ,例如 ,使 用 基于 Racine 等 ( 见 12 章 ) 建 议 的 自 举 法 进行 检验 。 如 人 们 
未 能 拒绝 原 假定 ,就 可 以 把 该 回归 元 从 模型 中 去 除 。 用 这 种 方法 ,只 有 相关 回 
归 元 才 有 可 能 继续 留 在 模型 中 ,这 样 就 可 以 用 那些 被 认为 是 相关 的 回归 元 去 重 
新 计算 交错 鉴定 窗 宽 。 那 么 由 于 没有 不 相关 回归 元 保留 在 这 个 模型 中 ,就 可 以 
应 用 定理 4.4 和 定理 4.5 的 结论 。 

我 们 现在 进入 到 一 般 的 情形 ,有 离散 和 连续 数据 混合 的 平滑 参数 的 非 参 数 
估计 。 


4.4 混合 数据 的 回归 :相关 回归 元 的 情形 


4.4.1 混合 数据 的 平滑 估计 


这 一 节 我 们 考虑 这 样 一 个 非 参 数 回归 模型 , 它 风 一 个 回归 元 子 集 是 分 类 

的 ,剩余 的 为 连续 的 。 同 第 3 章 一 样 ,我们 使 用 XX: 来 表示 一 个 rx1 阶 取 离 散 数 

值 的 回归 元 向 量 ,用 X: e R? 表示 剩余 的 连续 回归 元 。 我 们 再 次 用 如 表示 

X 的 第 * 个 元 素 。 我 们 假定 XI c. 22 个 不 同 的 值 , 即 Xe 140,1,…,c, -1| ,s = 
l, q. ESE SO X. = (X2,X:) 。 
这 个 非 参 数 回归 模型 为 : 

Y, = g(X,) + u, (4.19) 
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满足 E(u,1X,) =0。 我 们 用 f(x) =f, ) KRR (XI, X) 的 联合 概率 密度 
函数 。 
对 于 离散 变量 X: ,我 们 首先 考虑 这 些 变量 没有 自然 排序 的 情形 。 扩 展 到 一 
般 情形 时 一 些 离散 回归 元 具有 自然 排序 的 情况 将 在 本 节 的 末尾 讨论 。 
XÚ x° = (aiet st) JEN 
Re x -Xi _ rr 1 (x - X; 
W,(x°,X:) = mnl 7 )= II nel " ) 
其 中 w 是 对 称 的 非 负 的 一 元 核 函数 。0 < h, < m 是 x° 的 平滑 参数 。 对 六 = 


(si, 22) ,定义 








r 


Llw IF = I A at) 


其 中 N,(x) =1(Xs 闫 x) 是 示 性 函数 , 当 X 关 x! 时 等 于 1 ,和 否则 为 0。x* 的 平滑 
参数 为 0< 和 ,<1。 注 意 当 A,=1 时 ,L(x”,X',1) 将 与 (x ,Xs) 不 相关 ( 即 x 被 
平滑 掉 了 ) 。 

混合 变量 x = (x',x") 的 向 量 的 核 函 数 就 是 W, (OA LO) RER, E 
K (x,X,) = W(x ,XX ) L(x ,XA (y= (h,A) ) ,我 们 可 以 这 样 估计 glx): 


n` > Y,K (x,X,) 
glx) = 一 一 一 (4. 20) 
n™ Y K,(x,X,) 
注意 分 母 n” > K,(x,X,) REX 8 EE 838 f(x) = f(x°,x°) 的 核 估 计量 。 


可 以 证 明 &(x) - z(z) = 0,[ D hi + DA, + (nh ==h ) 2] REX hla) = 
[ë(=) - g(x) ]f(x) ,然后 可 以 证 明 (见习 题 4.9) : 
E[m(z)] = > B(x)f(x)h, + > B,(x)f/(x)A, +o(m;) (4.21) 


var(h(s)) = sa h + O(n,)] (4.22) 
f(x) = f(z) + O,(m, + n!) (4.23) 


其 中 
B(x) = —[z,(z) + 2g,(z)/.(z)/(z) 7] 


B,(x) = > 1(x’,z) [g(x z) - glx) IAC, fa) 


zd e Sá 
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K = foo) dv, M = Yh, + Xa, 
m = (nhh) 一 


1,(z2,22) E 1(x: zt) |] 1082 = 22) (4.24) 


1, (x2) 4 z“ Mz 仅 在 它们 的 第 ;个 元 素 不 同时 取 值 为 1, 否则 取 0。 
式 (4.21) 和 式 (4.22) 等 同 于 E( 疡 (x)*) = 0(m; +m), ARRE ma) = 
0,(m +m ) ,以 及 
g(x) - g(x) = Ta = U = 0,(m +m) 
mE n, =o(1) ,m2 =o(1) 外 ,人 们 也 可 假定 (nj) n =0(1), 8 
么 使 用 式 (4.21) 到 式 (4.23) 根 据 Liapunov 中 心 极限 定理 可 以 得 到 &(x) 的 渐 近 
正 态 分 布 : 


mhh, B(x) - g(x) - X Buah - > B,,(z)A, | 
NO n'a la) (4.25) 
4.4.2 交错 鉴定 法 


最 小 二 乘 交 错 鉴 定 法 通过 选择 hh,…,h,,A,,…,A, 来 最 小 化 交错 鉴定 
函数 : 


CV,(h,A) = > (Y, - £. (X,))”M(X,) (4.26) 


HP LX) = Y YK,(Xi,X)/ > K,(X,,X,) E g(X,) 的 去 一 核 估计 量 ,0 < 


M(:) 三 1 是 权重 函数 ,用 于 避免 除 以 0 和 由 于 边界 效应 导致 收敛 速度 慢 带 来 的 
困难 。 

我 们 假定 : 

Ch, h A: A,) e [0,9], nhh, > t, (4.27) 

其 中 7 = m, 是 一 个 正 的 收敛 于 0 的 序列 ,收敛 速度 慢 于 任意 的 多 项 式 的 倒 
数 ,t, 是 发 散 到 无 穷 的 常数 序列 。 

用 5 表示 M(: ) 的 支撑 ,我 们 也 假定 : 

gC RAO) 是 两 个 连续 可 微 的 函数 ;m(:*) 是 连续 、 非 负 且 有 紧 支撑 的 函 
数 ;对 x = (x,a) e SSAC) 非 负 且 有 界 (4. 28) 
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可 以 证 明 CV, 的 首 项 是 CV ,由 下 式 给 出 (忽略 与 (h,A) 不 相关 的 项 ): 
CVa ChA) = BHU YB + Y B, DATA) + SE Ms) de 
(4. 29) 
利用 交错 鉴定 和 &8(x) 的 均 方 误差 之 间 的 关系 也 可 以 推导 出 式 (4.29)。 在 
第 2 章 中 我 们 指出 相对 于 逐 点 的 均 方 误差 ,CV 的 首 项 是 : 
cV ~Y |MsE[¿(x) ]f(x) M(x) dx" (4.30) 
方程 (4. 25 ) 意味 着 : 
MSE[&(x)] —[ Y B.(z)h + S Bla 


+ Ko (x)f (z) (mh 大) 一 
将 上 式 代 入 式 (4.30) ,忽略 与 (h,A) 不 相关 的 项 和 低 阶 项 ,我 们 得 到 CV (a,b) 
=n “(0 y  JKrh 


x(a,b) = > [I E B a + S B.G) Aa) + E Ma) 


(4.31) 
其 中 oa =n “tP h, ,b, =n” “tPA o 方程 (4. 31) 确 实 给 出 了 CV, 的 首 项 ,正如 式 
(4.29) 说 明 的 。 
令 aa bob 表示 在 每 一 项 非 负 的 约束 下 最 小 化 x Wii RIH 
除了 某 些 a 或 ?是 无 限 的 情形 ,并 要 求 : 
a 和 b&b 是 唯一 定义 的 , 且 均 为 有 界 的 (4.32) 
这 意味 着 对 所 有 的 s, 有 0 <a < om ,但 是 对 某 些 ;,b 可 能 会 为 0。 习 题 
4.10 在 g=r=1 的 简单 情形 下 ,对 a° 和 br 推导 出 了 显 性 表达 式 。 
令 记 (1<s<g) 和 A 和 "(1<s<7r) 表 示 最 小 化 CV。(h,A) 的 h, 和 A, 的 值 , 那 
么 式 (4.32) 意 味 着 下 式 : 
hiap N OR 79%) sg 
A nN = Oln nO, 1 << s< r 
令 有 (s=1,…,g) 和 A,(s=1,…,7) 分 别 表 示 通 过 交错 鉴定 法 确定 的 h, 和 
A, 的 值 , 下 面 的 定理 证 明了 当 h° 和 和 "分别 被 h, 和 A 和, 代替 时 式 (4. 33 ) 成 立 。 
定理 4.7 在 条 件 (4.27) 、(4.28) 和 (4.32) 下 ,有 


1⁄(q+4) f 0 
n (“Oh —a,l <s <q 


(4.33) 


2/(g+4) f 0 
一 ,1<s<r 
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以 及 inf a [ CV, Ch,r) -n Y u? M,] > ing 依 概率 收敛。 


定理 4.7 的 证 明 可 以 在 Hall 等 (2006 ) 中 找到 , ¿E PB 4. 7 3 B >K (4. 33) 和 这 
样 一 个 事实 : 
CV,(h,A) - [o° (x) M(x) ax = CVO(h,A) + (s.o.) 


对 所 有 的 (x,x*) ews, Ch, A) e [0,7,] 一 致 收敛 ,其 中 四 >0, 且 n— 
时 7 ,一 "0。 

直觉 上 ,人们 将 期 望 最 小 化 CV,(. ,， ) 的 h, 和 A 和, 和 最 小 化 CV, (h, A) Ñ 
项 CV。(，,* ) 的 hh 和 A 有 相同 渐 近 性 质 。 因 此 ,我 们 期 望 六 = h +(s.o. ) 和 
À, =A° +(s.o.)o 


4.5 混合 数据 的 回归 :无关 回归 元 的 情形 


在 这 一 节 ,我 们 将 考虑 某 些 回归 元 可 能 是 不 相关 的 情形 ( 即 允 许 这 种 可 能 
性 ) 。 不 失 一 般 性 ,我 们 假定 只 有 X 的 前 q, AERA X 的 前 个 元 素 r, 在 下 面 
定义 的 意义 上 是 相关 回归 元 。 对 整数 0<g, ,q <q MOS, r <r 满足 g, +q, = 
q 以 及 ri +r, =7r, 令 了 包含 X' 的 前 gq AERA AX 的 前 m AER, A X = X/X 
表示 中 剩余 的 元 素 ,在 这 一 节 我 们 假定 : 

(Y,X) 独立 于 着 (4.34) 

条 件 (4. 34) 的 一 个 结果 是 E[ YIX,X] =E[ YI X] ,使 得 在 式 (4. 19) 中 只 有 
艺 是 相关 的 (因此 ,七 只 包含 无 关 回 归 元 ) 。 然 而 ,我 们 并 没有 假定 这 个 信息 是 
已 知 的 ,并 且 在 实践 中 ,我们 因此 用 非 参 数 估计 E[Y1X;] 而 不 是 E[Y.1X]。 我 
们 将 证 明 ,如 果 人 们 一 起 平滑 离散 和 连续 变量 ,并 用 最 小 二 乘 交 错 鉴 定 法 来 选 
择 平滑 参数 ,那么 渐 近 地 无 关 变 量 可 自动 被 平滑 掉 。 为 了 更 明确 地 说 明 我 们 所 
说 的 “无 关 变 量 将 被 平滑 掉 ” ,注意 : 
e X, - x) F X. — x 
a N 


x pS IT e) 














[I CX 2.) [| IO...) 
x 二 一 一 一 一 二 一 一 一 一 一 (4. 35 ) 
l X" s“ y. JOU S A 
I] ( i ) H 1 Ë i ) 
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如 果 对 s =q, +1,…,g,h,=% ,对 s=r +1,…,r, 和 A，, =1, 那 么 对 s =g, +1,… 
qg, 有 w((X, -x,)/h,) =w(0), 对 s=r+1,…,r, 有 LXs,xs,1) =1, 并 且 式 
(4.35) 可 简化 为 : 





(一 Eak. 中 [laz ,入 ,) 
(x) = EEE ES Er (4.36) 
x P e(a) 
由 于 w(0)” "在 &g(x) 的 分 子 和 分 母 中 被 消 掉 ,结果 是 g(x) 不 再 与 无 关 变 量 x° 
(s=gi+1,…,g) 和 x (s=r +1,…,r) 相 关 。 下 面 的 定理 4.8 中 我 们 证 明 交 错 
鉴定 法 具有 这 种 性 质 , 即 当 nw 时 ,对 s=g, +1,…,g, 有 hh 一 % ,对 s =r +l, 
r, 有 入 ,一 1。 于 是 , 渐 近 地 ,交错 鉴定 法 能 够 自动 地 移 除 无 关 变 量 。 

交错 鉴定 法 的 目标 函数 和 在 4.4 节 定 义 的 基本 一 致 ,除了 现在 Y. ==zg(X,) + 
u, E(u,|X,) =0, 也 就 是 说 ,条 件 均值 晒 数 只 取决 于 相关 的 回归 元 x. m,m, 和 
f, 的 定义 都 没有 变化 ,除非 人 们 在 g, =g(X,) 出 现时 需要 用 8, = g( X.) 4038. 


TE 4. 4 节 中 定义 的 x 函数 修正 的 类 似 结果 为 : 
yla, ea ,b ,b, ) 


= 5 {{ (P65 LEE) - aG) FG) fO)" 


+ pi P l.) EFE ) FG) 


E JEE) noa asn 
其 中 
" J “Nd "2 52) 


X (3° ,Xe a ) de dx 
横 线 ( 波 浪 线 ) 符 号 是 指 只 包含 相关 (不 相关 ) 回归 元 x(#) 的 向 量 函数 。f (站) 
是 = (x ,zx*) (=(z* ,x") ) 的 联合 概率 密度 ,元 ,(f,,) 是 元 (f) 关 于 的 二 阶 导 
数 ,元 =EJ。 
与 以 前 一 样 , 用 o,， ` b 表示 在 它们 都 是 非 负 的 约 东 下 最 小 化 元 


的 值 。 我 们 要 求 mia 是 唯一 一 被 定义 的 ,并 且 每 一 个 都 有 界 。 
注意 无 关 元 素 没 有 出 现在 六 的 定义 中 ,这 是 因为 无 关 的 元 素 会 在 比值 
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g z m 区 a< a in ai = 


E[ 训 (x)]/E[f(x) ] 中 相互 抵消 ,我 们 把 它 记 为 有 (x3) =E[ñ(x)]/ZE[f(z)], 
对 相关 变量 x, 我 们 要 求 : 

> | Rs) - z(a) 6 (a)f(a) da (4.38) 
解释 为 h, ,sh ,Al , ,入 ,的 一 个 函数 , 当 且 仅 当 这 些 平滑 参数 全 部 变 为 0 时 
它 也 为 0。 

由 于 我 们 应 该 让 无 关 变 量 的 平滑 参数 从 0 发 散 , 我 们 将 不 再 需要 施加 对 所 
有 的 s, 有 h,=o(1),A, =o(1) 的 条 件 ,而 是 给 窗 宽 和 核 施加 下 面 传 统 的 条 件 。 
定义 : 

H = (ma) [| min(h,,1) 
令 0<e<1/(g+4)。 假 定 
n < H < n“ 
min(h,,- h.) > n .max(Àh,," h.) < nf, $C >0 
核 函 数 是 一 个 对 称 、 紧 支撑 、Holder 连续 的 概率 密度 函数 
w(0) > w(6) ,所 有 5 > 0 (4. 39) 

如 果 e 任意 小 ,上 面 关 于 h,,…,h, 的 条 件 基 本 上 为 当 mn 一 oz 时 ,mi h 一 
æ heh —0 且 h…h, 一 0。 男 外 ,我 们 要 求 h, 趋 于 0 的 最 快速 度 不 能 超过 
n“, 趋 于 无 穷 的 最 快速 度 不 能 超过 n" (对 无 关 变 量 ) 。 

在 这 些 条 件 下 ,我 们 得 到 下 面 的 结果 。 

定理 4.8 ”在 条 件 (4.28)、(4.34)、(4.38) 和 (4.39) 下 , 今 h... h, 
A, ,…,A, 表 示 最 小 化 CV, 的 平滑 参数 ,那么 : 

nth 一 a" 依 概率 收敛 ， l<s=<q, 
P(h, > C)—1,q +1 < s= q,Br4#f C > 0 
nt) — b? 依 概率 收 合 ,1 < s< r, 
A,—1 依 概率 收敛 ， r, + 1 <s=<w<r 
il had, inf [CV,(h,A) Dy u M, | infx (4. 40) 

定理 4.8 的 证 明 在 Hall 等 (2006 ) 中 给 出 。 定 理 4.8 说 明了 无 关 元 素 的 平 
滑 参 数 依 概率 收敛 于 各 自 的 极 下 值 ; 因 此 ,所 有 的 无 关 变 量 可 以 被 ( 渐 近 地 ) H 
动 平 滑 掉 ,而 相关 变量 的 平滑 参数 拥有 无 关 变量 没有 出 现时 相同 的 最 优 性 质 。 
这 与 我 们 在 4. 3 节 讨 论 的 只 有 离散 回归 元 的 情形 下 的 结果 形成 鲜明 对 比 , 在 那 
里 也 存在 无 关 回 归 元 不 会 被 平滑 掉 的 可 能 性 。 

下 一 个 定理 给 出 了 当 用 交错 鉴定 法 选择 平滑 参数 时 ,g(x) 的 渐 近 正 态 
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E = 区 E = 3 z A :有 


结果 。 
定理 4.9 在 与 定理 4.8 相同 的 条 件 下 , 令 S =supp ,xz=(xz ,x*) ES x 
S' ,那么 : 
(mi 有 (zx) -g(3) - Y B(x)h: 一 > B, (a), | 
d KG) (x) 
S n(0, =E (4.41) 
f(z) 
其 中 
| 
f(x) 
B,(x) = D 1,0,3") lg ,0) - BC) f(z ,0)f(#)™" (4.42) 
有 F(x) = E(u | X, = x), 
定理 4.9 的 证 明 在 Hall 等 (2006) 中 给 出 。 直 观 上 我 们 可 以 这 样 理解 , 首 
先 ,注意 当 对 s =q +1,…,9, 有 一 w MX s =r +l, r A Iml 时 ,我 们 有 (x， 
有 A A ) + (s.0.)。 其 次 ,由 hh 一 hh = 
o,(h),(s=1,… ,gi) 和 A 和, 一 A" =o,《(A )(s=1,…,r) ,我 人 有 (x,h,,…,h,， 
Anst = A ) + (8.0. ) ,所 以 定理 4.9 得 证 。 


B(x) = zer fa) +2 


4.5.1 有 序 离散 变量 


到 现在 为 止 ,我 们 把 我 们 的 注意 力 限 制 在 离散 变量 是 无 序 的 情况 。 然 而 ， 
如 果 一 些 离散 变量 是 有 序 的 (也 就 是 有 序 分 类 变量 ) ,那么 我 们 将 使 用 一 个 能 够 
反映 这 些 变 量 有 序 这 个 事实 的 核 函数 。 假 定 x; 可 以 取 e, 个 不 同 的 有 序 值 10， 
1 ,…,c, — 1} ,Aitchison 和 Aitken (1976 ‚p. 29) ÆW 4 lxt -vl|=j(0<s<c,) 成 立 


时 ,使 用 由 1(x4,os,A,) = [站 (1 -A)” 给 出 的 核 画 数 ,其 中 [ | o 


(e, - 门 !] 。 可 以 观察 到 这 些 权重 加 起 来 为 1; 然而, 当 ce,>3 时 ,这 个 权重 函数 是 

有 缺陷 的 ,因为 没有 和 A, 的 值 可 以 使 1(x,,v ,A,) 等 于 一 个 常数 函数 。 因 此 ,尽管 

x 被 证 明 是 一 个 无 关 回 归 量 ,如 果 人 们 使 用 这 个 核 , 它 绝 不 会 被 平滑 掉 。 因 此 ， 
我 们 建议 使 用 如 下 另外 一 个 核 函数 : 

lx,v,A,) = A (4.43) 

À, 的 取 值 范围 是 [0,1] 。 再 一 次 , 当 和 , 取 其 极 大 值 (A, =1) 时 ,我 们 看 到 对 

T xí 的 所 有 取 值 ,L(x ,v ,A,) 三 1 RA, v e 10,1,…,c, -1|。 在 这 种 情形 下 ， 


I xd 一 sd 
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x > # x e g » x 8 


x 在 最 后 的 估计 中 完全 被 平滑 掉 。 

可 以 容易 地 证 明 当 一 些 离散 变量 有 序 时 ,如果 人 们 使 用 式 (4. 43 ) 所 给 定 的 
核 函 数 ,那么 ,上 面 提 到 的 所 有 结果 继续 成 立 。 

当然 ,如 果 一 个 有 序 离散 变量 取 非 常 多 不 同 的 值 , 人 们 可 以 简单 地 把 它 看 
成 连续 变量 去 处 理 。 在 实践 中 这 样 得 出 的 估计 结果 与 人 们 把 这 个 变量 当 作 一 
个 有 序 离 散 变 量 处 理 并 使 用 式 (4. 43 ) 给 出 的 核 函数 产生 的 估计 结果 是 类 似 的 。 

Bierens( 1983 ,1987) 以 及 Ahmad 和 Cerrito ( 1994 ) 也 考虑 了 对 一 个 回归 郴 
数 的 非 参 数 估 计 把 离散 和 连续 变量 都 进行 平滑 。 但 是 他 们 没有 研究 数据 驱动 
的 平滑 参数 选择 这 一 基本 问题 。 正 如 我 们 在 这 一 节 所 展示 的 ,用 自动 的 数据 驱 
动 方法 来 选择 平滑 参数 是 重要 的 。 此 外 ,最 小 二 乘 交 错 鉴 定 法 有 它 可 以 自动 地 
( 渐 近 地 ) 消除 不 相关 的 解释 变量 这 个 特别 有 吸引 力 的 性 质 。 在 有 离散 和 连续 
变量 的 非 参 数 背景 中 ,最 小 二 乘 交 错 鉴 定 法 单独 成 立 ,其 他 方法 没有 这 个 性 质 。 


4.6 应 用 


4.6.1 非 家 用 食品 消费 


在 20 世纪 80 年 代 之 前 ,在 中 国 食品 部 门 所 增加 的 价值 中 非 家 用 食品 
(FAFH ) 所 占 的 比重 是 微不足道 的 。 大 部 分 膳食 的 家 庭 生 产 是 使 用 家 庭 生 产 的 
谷物 、 生 蔬菜 和 肉 类 ,在 国营 的 食品 店 购买 或 者 直接 从 农民 手中 购买 。20 世纪 
80 年 代 之 后 ,中 国 消费 者 在 饭馆 、 和 餐厅、 食堂 的 用 餐 日 益 增 加 ,反映 了 中 国 收 入 
快速 增长 。FAFH 在 总 食品 支出 中 所 占 的 份额 从 1992 年 的 5.03% 稳 步 增 长 到 
2000 年 的 14.70% 。 在 2000 年 ,人 均 每 年 FAFH 支出 达到 288 元 ,在 中 国 城市 
总 FAFH 支出 达到 1 320 亿 元 (159 亿美 元 )。 在 下 面 的 应 用 中 ,可 以 看 到 非 参 
数 方法 预期 中 国 FAFH 支出 会 继续 增长 ,原因 是 中 产 阶级 的 增长 ,快速 的 城市 
化 以 及 与 美国 (2001 年 40. 3% ,美国 经 济 研究 局 , USDA)、 加 拿 大 (2001 年 
35.6% ,加 拿 大 统计 局 ) 和 其 他 发 达 国 家 ( 见 Jensen 和 Yen(1996)) 相 比较 低 的 
FAFH 份额 。 这 个 结论 与 用 于 为 这 种 支出 建 模 的 一 个 流行 的 线性 模型 所 得 到 的 
结论 相反 。 

数据 来 源 于 中 国 国家 统计 局 分 别 在 1992 年 和 1998 年 对 城市 居民 的 调查 。 
因 变 量 是 人 均 家 庭 的 FAFH 支出 (1992 年 人 民 币 )。 解 释 变 量 包 括 家 庭 人 均 收 
人 和、 家 庭 的 大 小 户主 的 受 教育 水 平 ( 七 个 类 别 ) 呈 户主 的 年 龄 一 个 0-1 虚拟 变 
量 表明 家 庭 是 否 在 大 城市 和 一 个 户主 性 别 的 虚拟 变量 。 在 这 个 研究 中 总 样本 


D 1. 小 学 以 下 ,2. 小 学 ,3. 初中 ,4. 商 中 ,5. 中 专 ,6. 两 年 大 专 ,7. 学 士 及 以 上 。 
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的 大 小 1992 年 是 3459 ,1998 年 是 3359。Min Fang 和 Li(2004) 也 估计 了 一 个 
流行 的 线性 模型 用 于 比较 。 他 们 给 出 了 一 些 图 说 明 FAFH 支出 与 收入 之 间 的 
关系 (所 有 其 他 回归 元 固定 在 样本 中 位 数 不 变 )。1992 年 和 1998 年 的 非 参 数 
FAFH 支出 曲线 都 表明 在 已 经 达到 一 个 高 收入 水 平 后 FAFH 消费 停止 增长 。 这 
与 参数 模型 的 结果 非常 不 同 ,在 那里 线性 模型 预测 家 庭 收 入 越 高 FAFH 消费 越 
高 。 为 了 去 核查 哪 种 结果 提供 了 对 数据 更 好 的 描述 ,Min 等 分 别 计 算 了 参数 和 
非 参 数 模 型 的 拟 合 优 度 (R* ) o 1992 年 和 1998 年 数据 线性 模型 的 R 值 分 别 为 
0. 128 和 0. 170 ,而 非 参 数 模 型 中 分 别 为 0. 382 和 0. 348。 
表 4.1 给 出 了 不 同 收入 水 平 的 平均 FAFH 支出 ,以 及 用 参数 (普通 最 小 二 
F OLS) 和 非 参数 模型 预测 的 均值 。 高 收入 的 家 庭 确实 在 FAFH 上 花费 比 那 些 
收入 略 低 的 家 庭 要 少 。 在 1992 年 ,收入 超过 5 000 元 的 家 庭 比 那 些 收 入 在 
3 000 一 5 000 元 的 家 庭 在 FAFH 上 花费 少 了 11 元 。 在 1998 年 ,收入 超过 9 000 
元 的 家 庭 比 收入 在 4 000 一 9 000 元 的 家 庭 在 FAFH 上 花费 少 了 52 元 。 我 们 观 
察 到 对 中 低 收 入 水 平 , 参 数 和 非 参 数 模 型 都 很 好 地 预测 了 FAFH 的 平均 支出 。 
然而 ,对 于 高 收入 水 平 ,参数 模型 给 出 了 误导 性 的 预测 ,而 非 参 数 方法 在 这 种 情 
形 中 做 得 更 好 。 
表 4.1 依 收 入 分 类 的 FAFH 平均 支出 


1992 年 
收入 数据 平均 OLS 平均 非 参 数 平均 
3 000 元 以 下 82.78 82.12 83.26 
3 000 一 5 000 元 154.9 152.0 148.0 
5000 元 以 上 143.9 221.7 144.9 
1998 年 
收入 数据 平均 OLS 平均 非 参 数 平 均 
4000 元 以 下 119.40 120.1 121.9 
4 000—9 000 元 257.0 250.0 254.0 
9000 元 以 上 205. 2 441.1 232.9 


表 4.2 报告 了 收入 弹性 的 均值 和 中 位 数 的 估计 值 。 在 非 参 数 模型 中 ,家 庭 


i 的 弹性 加 由 ,= 和 写本 计算 得 出 ,其 中 ,表示 第 ;个 家 庭 的 收入 ,然而 


在 线性 模型 中 ,n, = B o RA 2 揭示 了 一 些 有 趣 的 现象 。 比 较 1992 年 与 


1998 年 的 弹性 , 非 参 数 模型 的 结果 表明 大 城市 和 中 小 城市 家 庭 收 入 弹性 的 均值 
和 中 位 数 都 增加 了 。 相 反 ,参数 模型 结果 却 表 明 只 有 中 小 城市 家 庭 弹 性 的 均值 
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增加 了 ,而 大 城市 家 庭 弹性 的 均值 以 及 大 城市 和 中 小 城市 家 庭 弹性 的 中 位 数 从 
1992 到 1998 年 都 是 下 降 的 。 这 种 互相 冲突 的 估计 结果 可 能 是 由 于 线性 模型 的 
错误 设 定 导致 的 。 正 如 我 们 之 前 讨论 的 ,线性 模型 过 高 估计 了 高 收入 家 庭 的 
FAFH 支出 ,因为 它 在 FAFH 消费 中 强加 了 一 个 不 正确 的 线性 收入 (趋势 ) 成 分 。 
错误 设 定 的 线性 模型 也 过 高 估计 了 高 收入 家 庭 的 弹性 ,从 而 导致 了 从 1992 年 
到 1998 年 弹性 的 中 位 数 下 降 的 错误 预测 。 


表 4.2 收入 弹性 的 均值 和 中 位 数 (wm, 代表 家 庭 i 的 收入 弹性 ) 


大 城市 中 小 城市 
参数 结果 — 
1992 年 1998 年 1992 年 1998 年 
均值 0. 878 0. 848 1.274 1.351 
中 位 数 0. 848 0. 832 1.074 0.994 
n: > 1 的 百分比 18.5% 13.9% 69. 6% 48.8% 
大 城市 中 小 城市 
非 参 数 结果 = 
1992 年 1998 年 1992 年 1998 年 
均值 0. 626 0. 826 0. 900 0. 947 
中 位 数 0.751 0.851 0.938 0.960 
m, > 1 的 百分比 35.0% 39. 9% 45. 9% 45. 8% 
4.6.2 罢工 量 建 模 


我 们 考虑 一 个 用 于 为 18 个 经 济 合作 与 发 展 组 织 (OECD ) 国 家 黑 工 水 平 建 
模 的 年 度 观测 值 的 面板 数据 。 数 据 包 括 罢 工 量 水 平 的 观测 值 (每 1 000 个 工薪 
收入 者 由 于 劳资 纠纷 所 造成 的 损失 的 天 数 ) 和 从 1951 年 到 1985 年 在 18 个 
OECD 国家 中 的 解释 变量 。 不 同 国 家 间 的 罢工 量 的 平均 水 平和 方差 差异 非常 
大 。 数 据 分 布 也 以 一 个 长 右 尾 和 几 个 黑 工 量 的 大 值 为 特征 。 我 们 使 用 下 面 的 
解释 变量 :(1) 国家 代码 ;(2) 年 份 ;(3) 3 T Bt;(4) 失业 率 ;(5) 通货 膨胀 率 ; 
(6) 社会 民主 和 劳工 组 织 的 议会 代表 ; (7) 工会 集中 度 的 一 个 时 间 不 变 指 标 。 
数据 是 公开 可 得 的 ( 见 StatLib，http://lib. stat. cmu. edu) 。 因 为 一 个 国家 的 数 
据 不 完全 ,我 们 仅 对 17 个 有 完整 数据 的 国家 进行 分 析 。 

Western(1996) 分 析 了 这 些 数据 ,他 考虑 了 一 个 具有 国家 特定 固定 效应 和 
时 间 趋 势 的 线性 面板 数据 模型 。 我 们 考虑 一 个 非 参数 模型 , 它 把 国家 代码 处 理 
为 分 类 数据 而 其 他 的 回归 元 是 连续 的 。 为 了 评估 每 个 模型 的 表现 ,我 们 估计 了 
每 个 模型 ,数据 是 1951 一 1983 年 间 , 然 后 ,基于 样本 外 预测 的 表现 用 1984 一 
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£ bd = s 丙 £ x A xX 


1985 年 间 的 数据 评估 每 个 模型 ,并 用 预测 平方 误差 作为 我 们 的 标准 。 我 们 以 考 
虑 交错 鉴定 窗 宽 开 始 ,结果 见 表 4.3。 
表 4.3 使 用 训练 数据 不 同方 法 下 的 标准 差 和 窗 宽 ,n, =561 
1 2 3 4 5 6 
ô 9. 53 2.84 4.75 13.31 0.31 — 
R/A 102565846.11 4800821.61 5.84 30.56 408328.03 0.12 
注 :(1) 年 份 ;(2) 失业 率 ;(3) 通货 膨胀 率 ;(4) 议会 代表 ;(5) 工会 集中 度 ;(6) 国家 
代码 。 
正如 从 表 4. 3 中 所 看 见 的 ,连续 回归 元 年 份 .失业 率 以 及 工会 集中 度 在 相 
应 的 非 参数 估计 中 被 有 效 平滑 掉 了 。 这 意味 着 连续 回归 元 通货 膨胀 议会 代表 
和 离散 回归 元 国家 代码 在 上 文 所 述 的 意义 上 是 相关 的 。 
我 们 接 下 来 比较 每 个 模型 的 样本 外 预测 表现 。 参 数 面板 模型 (所 有 变量 线 
性 地 进入 模型 ) 的 相对 均 方 误差 相对 于 非 参 数 交 错 鉴定 法 是 1.33 。 我 们 注意 到 
不 同 的 预测 期 对 模型 的 相对 预测 表现 几乎 没有 影响 。 我 们 也 尝试 了 一 个 有 交 
互 项 的 参数 模型 (连续 回归 元 的 平方 ) ,相应 的 样本 外 预测 均 方 误差 甚至 比 线性 
模型 的 均 方 误差 预测 大 ( 它 的 预测 均 方 误差 与 非 参 数 交错 鉴定 法 的 比值 是 
1.44) ,然而 一 个 只 有 一 个 常数 、 失 业 率 和 通货 膨胀 率 的 简单 参数 模型 , 它 的 预 
测 均 方 误差 比 非 参数 交错 鉴定 法 大 15% ( 相对 预测 均 方 误差 是 1.15) ,这 意味 
着 一 个 线性 参数 的 设 定 是 不 合适 的 。 


47 J 题 


习题 4.1 推导 下 式 给 出 的 非 平滑 估计 量 P(x) 的 均 方 误差 
B(x) = 六 六 100 = 2) 
其 中 1(. ) 是 一 个 定义 如 下 的 示 性 函数 : 


KE as) -人 X, = s 
0, 其 他 

Jeh X eS=10,1,…,c -1| 是 一 个 有 有 限 支撑 的 离散 随机 变量 。 
习题 4.2 考虑 由 下 式 给 出 的 核 估计 量 p(x) : 
B(x) = F L(X,,z,A) 


其 中 x 是 标量 ,L(: ) 是 一 个 定义 如 下 的 核 函 数 : 
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3 i z EA s a x” z 路 
ESY X, = 
L(X,,s,À) -| 
A/(c - Le 其 他 


其 中 Ae[l0,(c-1)/c]。 
(i) 推导 估计 量 的 偏 误 ,然后 证 明 如 果 开 有 一 个 (离散 的 ) 均 匀 分 布 , 则 对 
MAR XA plx) =1/c, 那 么 核 估计 量 P(x) 对 任意 可 接受 的 和 A 值 是 无 偏 的 。 
(ii) 证 明 


var(ġ(a)) = POUD (1 ae) 


汪 明 如 晒 有 一 个 (高 散 的 ) 均匀 分 布 , 则 对 所 有 的 X,p(2) =1/e, 当 和 =(e- 
1)/e 即 它 的 上 界 时 ,5(x) 的 方差 为 0。 

(üi) 给 定 上 述 结论 , 当 潜在 分 布 是 均匀 分 布 时 , 核 估计 量 多 xz) 是 否 可 能 有 
一 个 为 零 的 均 方 误差 ? M A 满足 什么 条 件 时 这 种 情况 会 发 生 ? 证 明 你 的 结论 。 

习题 4.3 

(i) WEW ELPC") JAI var( PCa“) ) 确 实 由 式 (4.5) 给 出 ,其 中 

B, = X hC pl) - pla") 

其 中 1(x ,2 ) 的 定义 见 式 (4.24) 。 


(ü) HEH] E( (<x2)') = O [| Fä +n] IEP Alat) 在 式 (4. 15) 中 定 
义 。 注 意 0 [ 5a.) ) = of Y). 


习题 4.4 N, 是 一 个 rxr 阶 矩阵 ,其 中 第 (*,0) 个 元 素 为 
PLPC) -pA pw) ~ p.(86)1 


其 中 
Pi (2°) = TACOL) (4.44) 
注意 p (t) BEMER AA p a EHE c -1,2 e S4 上 的 平均 
概率 ,与 x 的 不 同 仅 在 于 第 s 个 元 素 的 不 同 , 即 PCz) = — X plai). 
考虑 r=2 的 简单 情形 。 那 么 ， 
A A = D IAG") pil")] +A Llp") - p (8) 11 


证 明 当 且 仅 当 存 在 x",z"e S'EI plat) =p. (x°) H plt) #p a(z )E}, 
Nn, 是 正定 的 。 


151 


119 


152 


120 


非 参 数 计量 经 济 学 


n R x g: 2 bd a ~ N 


习题 4.5 ”使 用 式 (4.3) ,我 们 有 : 





h, = 3 [P(x)] = Ti 5 YEE = YY L 
其 中 = D L Lo 
因此 ,我 们 有 
CV,(A) =a y + ega, $ 303 [L - 2L, +] 
-FR DFA (4.45) 


令 CV (AJER (4.45) PEX, HRE x° 是 一 元 的 且 从 10,1,…,c -1|} 中 
取 值 ,证明 ( 和 是 一 个 标量 ) 
E(CV,(A)) =D,à? - DAn +o(A + An") 
+ 独立 于 入 的 项 (4.46) 
Hep D, ACER) ES EF D 的 显 性 表达 式 。 
注意 关于 和 A 最 小 化 式 (4. 46) ,得 出 A=n™'D,/(2D,) =O(n`'). 
习题 4.6 
(i) 证 明定 理 4.2(i)。 
提示 :利用 定理 4. 1 和 式 (3. 3) 的 结论 。 
(ii) 证 明定 理 4.2(ii) 。 
提示 :利用 定理 4. 1 和 式 (3.4) 的 结论 。 
习题 4.7 fE x° 为 一 元 的 情形 下 证 明定 理 4.4。 
RR: M a 为 一 元 时 ,有 局，=1 -+Alsvo(d=lz -好 1)。 记 : 
P(x1) = n" > [1, -。 F Al, vo] = Po + APi 


ji 


1 l ) 2 
pe 元 | : A] +t ) 

可 以 把 CV,(A) 扩 展 为 一 个 关于 4 的 震级 数 , 即 ; 

CV, =A à? +4An +o(An + À?) + 与 和 A 无关 的 项 

其 中 4, >0 是 一 个 正 的 常数 ,4,, 是 一 个 0,(1) 的 随机 变量 。 
习题 4.8 在 证 明定 理 4.5 时 ,我 们 用 到 0 (x ) =o(x ) +o,(1), 证 明 这 
一 结论 。 

提示 : 记 G (a!) — o (af) = [6 (xt) - o (x )]P(x*)/P(x') ,使 用 入 ，= 


O, (n) AKARE (a) Pla) = n Y (2 = a") + On 2 
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i [g = r": s: = 2 ES 


o (x*)p(xz°). 

习题 4.9 ”从 式 (4. 23 ) 推 出 式 (4.21) 。 

习题 4. 10 a fl b) 被 定义 为 满足 最 小 化 定义 在 式 (4. 31) 中 的 x 的 唯一 有 
界 的 值 , 考 虑 g=1 和 r=1 的 情形 ,通过 最 小 化 式 (4. 31) 解 出 a A b". 

提示 :注意 X(a1,61) = Clay + Cb - C,aib, + Co/ai, 其 中 对 j=0,1,2,C,> 
0。 这 可 以 写成 : 

ylar) = G [h -Aa ]° + A;,at + Co/a, 

其 中 4, = C,/(20,), A, =C, - È/(4C,) >0。 因 此 ,我 们 有 b = max |0,A, 
(a)l CAW b E), m 3 A, 20, a = [C,/(4A,) 12. WR A, <0, # 
a, =[G,/(4G,)]'?, 

习题 4.11 考虑 r=1 的 简单 情形 ,证 明 当 且 仅 当 g(x“) 不 是 一 个 常数 函数 
(这 里 x 是 一 元 的 ) 时 ,假定 4. 1 成立 。 

提示 :对 所 有 的 x e St (xz 为 一 元 的 ,因为 r=1), 假 定 4.1 可 变化 为 
> l[g(x°) - g(z2)][1(x° = zf) +A # z)]]' = 0, 这 等 价 于 入 


k [g(x’) —- g(z!)]'1(x! # z) = 0, 因 为 [g(x’) - g(z2)]1(x = z) = 0, 
然而 ,既然 g(x") 不 是 一 个 常数 函数 ,我 们 知道 > [zg(< °) - g(z*)] ICat z) 
zdesd 


> 0。 因 此 ,我 们 必须 有 A = 0。 于 是 , 当 x" 是 一 元 时 , 当 且 仅 当 g(x ) 不 是 一 个 常 
数 函 数 时 ,假定 4. 1 成 立 。 
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=* 8 x w 路 š N 8 N: 
5 件 密度 估计 
p 
PSH 条 ; 
s 党 “ ss ` as 3 si CS 


条 件 概率 密度 函数 构成 了 今天 使 用 的 大 部 分 流行 
统计 方法 的 支柱 ,尽管 通常 它们 不 在 一 个 参数 框架 下 进 
行 直接 建 模 。 在 核 框 架 下 它们 甚至 更 少 受 到 关注 。 然 
而 ,正如 我 们 即将 看 到 的 ,这 种 方法 在 一 系列 任务 中 是 
极其 有 用 的 ,包括 计数 数据 建 模 或 者 预测 消费 者 的 选择 
( 见 Cameron 和 Trivedi(1998 ) 对 计数 数据 模型 的 一 个 全 
面 的 处 理 ) 。 本 章 中 我 们 将 讨论 条 件 概率 密度 函数 的 非 
参数 估计 。 我 们 着 重 关 注 实 际 上 相关 的 离散 和 连续 数 
据 混合 的 情形 。 我 们 在 第 3 章 和 第 4 章 已 经 提 到 ,用 一 
种 特别 的 方式 平滑 离散 变量 相对 于 使 用 基于 频率 的 方 
法 具有 理论 和 实践 上 的 优势 ,因此 下 文 我 们 将 直接 进行 
到 平滑 离散 和 连续 变量 。 注 意 ,我 们 可 能 把 条 件 变量 作 
为 回归 元 ,尽管 我 们 是 在 估计 条 件 密度 而 不 是 回归 
函数 。 


5.1 条 件 密度 估计 :相关 变量 的 情形 


SAOU ORIRE, Y) HKE REAR X 
的 边际 密度 。 在 下 面 我 们 将 把 了 作为 一 个 因 变 量 ( 即 y 
是 被 解释 变量 ) ,X 是 协 变量 ( 即 式 是 解释 变量 ) RN 
用 f 和 应 表示 其 核 估计 。 我 们 通过 下 式 估 计 条 件 密 度 
g(ylx) =f(x,y)/Zw(x): 
lyi x) = f(z,y)/ñ(x) (5.1) 
我 们 首先 考虑 了 是 一 元 连续 随机 变量 的 情形 ,然后 
讨论 了 是 一 元 离散 变量 的 情形 。 我 们 在 5.4 节 处 理 了 
是 多 元 的 情况 。 我 们 对 成 -.) 和 A(- ) 的 估计 是 : 
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Ë Æ > 8; L: # x m" z 
f(x,y) =n” 5 K (x,X,)k p (y,Y,) (5.2) 
A(x) =n” Y K,(x,X,) (5.3) 


其 中 心 是 了 的 平滑 参数 ,y = (h,A), 且 
K (sx,X,) = W,(s',1)L(s* ,XA) 





e c = t L. x° — X; 
WO G= H al k ) 
M N ay = [I [A (e, = 1) Ob! (3 = A 


N,(x) =1(X4 x) R — ARERR, 4 Xia 时 它 等 于 1, 否则 等 于 0,k(y， 
Y.) =h, k((y-Y,)/ho) o 

正如 我 们 在 前 面 章 节 所 强调 的 ,在 应 用 背景 中 需要 数据 驱动 的 窗 宽 选 择 方 
法 ,如 交错 鉴定 法 。 下 面 我 们 讨论 两 种 不 同 的 交错 鉴定 法 。 第 一 种 是 基于 最 小 
化 g(ylx) 和 g(ylx) 之 差 的 加 权 积分 平方 ,第 二 种 方法 是 似 然 方法 。 正 如 我 们 
将 要 看 到 的 ,第 一 种 方法 有 一 些 理想 的 最 优 性 质 ,但 是 在 大 样本 中 是 计算 繁重 
的 。 第 二 种 方法 计算 代价 更 小 ,但 是 在 连续 变量 的 分 布 有 厚 尾 时 会 导致 不 一 至 
的 估计 。 


5.2 条 件 密度 窗 宽 选择 


5.2.1 最 小 二 乘 交错 鉴定 :相关 变量 的 情形 


与 非 条 件 密度 估计 的 情形 一 样 , 当 用 核 方法 估计 条 件 密度 时 ,我 们 可 以 使 
用 最 小 二 乘 交错 鉴定 法 来 选择 平滑 参数 。 我 们 考虑 下 面 基 于 一 个 加 权 积分 平 


方 误差 ( dx = > fax) 的 准则 ， 
ISE = [18(y! x) - g(y1 x) |*a(z)M(z° )dzdy (5.4) 


= Fa 21, + lya 
其 中 M(: ) 是 一 个 权重 函数 ， 


— fè o! x)'u(x)M(x°)dxdy, L. = fio! x)f(x,y)M(x°)dxdy 
另外 , ba = [eO x)p(x)M(x')dxdy 不 依赖 于 用 于 计算 了 和 应 的 平滑 参数 。 
我 们 观察 到 
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“4 w a x a a s = m 


eO) 





= [6(*) 2 x) + TA M(x )dx = E ry szM(z°) | 
这 里 的 期 望 是 关于 X ne r ,它们 被 用 于 计算 G(:) 


Mul), ÊC) = |f (x,y) dy KEN CO 被 定义 为 : 

la) = ES S K GX K, (xX) [s (rY, Jwg (y, Yp) dy 

类 似 地 ,1, 可 以 被 写成 : 
E,[é(Y1 X)M(X:)] = Es[f(Y,X)M(X') /p(X)] 

这 里 的 期 望 是 关于 Z = (Y,X) 的 。 因 此 ,下 面 采用 交错 鉴定 法 得 到 对 7, 和 ,的 
近似 值 i,, 和 2 

, _ 12 C OEOMOKN ; _ 1 RN) 

hsna AQ GX ' "=" >: ñ, (X,) 


其 中 下 标 -i 表示 去 一 估计 量 , 例 如 : 
Ë _ 1 n n 
G_,(X,) (n _ 1); 2 ` K, (Xi Xi, )K, (X, X, ) 


x fion (yY, ws, Cy, Yp) dy 
因此 ,我 们 的 交错 鉴定 目标 函数 为 : 
CY (k A.A) = P (h k.A) 35 (h.,k.A) 

其 中 (h,A) = (hist ,hs Ai, ,A,)o 

根据 在 4.4.2 节 的 提出 分 析 思 路 ,再 次 使 用 应 (x) =u (x) '+(g(x)- 
应 (x) )/[j(x) 朱 (x) ] 来 处 理 随 机 分 母 的 出 现 ,容易 看 出 &(ylx) -g(ylx) 的 首 
项 是 [8(ylx) -g(ylx)]ñ(x)/g(x) = [f(x,y) -ñ(x)g(ylz)]Zw(x),Hal 等 
(2004) 进一步 证 明了 CV, 的 首 项 是 : 

CV, = [ELf(x,) -f(x)g(yl z) M(x ) /p(x) |dady (5.5) 

&@#p,=AÀA,/|(1-A,)(c, -1)]| , fola x y Mf (x°, ,Y) 表 示 f( x° z", 

y) X: 3 y dl x° 的 二 阶 偏 导 ,我 们 可 以 写成 ， 


E|f(x,y)] = > I lI (1 = ap? {ST eG) jmo) 


x f(x — hz,x*,y 一 hov) dz, dz dv 


asya DA [E LO OSa y) - f(x,y) } 
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i = E =; L. g ™ z A 
+ rhifo lay) +ga fey) tolm) — (5.6) 


EPLO AERA PEX, m = Fa, + YH 
E(ñ(z))= > PO“ = III a -a 995) 
x [|Y kG) Mor - hz," y — hov) dz, dz de 
= (x) + PAE yn (a) -p(x)) 


+7 D Bip, (ry) + o(m:) (5.7) 
因此 ,由 式 (5.6) 和 式 (5.7) 可 以 导出 : 
Elf(x,y) - ñ(x)g(yl x)| 


= [IO A) {fy) -全 zy) 





u(x) 
+ oh (xy) 
rT Ks) 
+ A a FAG |* oln) (5.8) 


注意 : 
var(f(x,y) -ñ(a)g(yl x)) = nvarl K(x,X) |k, (y,Y,) - g(y1 x)|] 
= n”E[ IK,(x,X,)k, (y, Y,) 1] + o(m,) 


= Kk*'*'f(x,y)m, + o(71) (5.9) 
HP n, = (nh, h.) o 
联 立 式 (5.8) 和 式 (5.9) ,我 们 可 以 得 到 
CV (Açah,A) = w **** e (as,a,8) (5.10) 
其 中 








Xe(ao,a,b) “512 HE) 


x {f(x, v’ ,7y) = v (z) }+ safe) 


+e {fy -E Aay} 
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基 


, C f(z y) ) Ms dy (5.11) 
u(x) 


其 中 a, fl b, 分 别 通过 六 =n Uta A A, =bn 0 来 定义 。 

Haa, ,G b ,0 表示 最 小 化 Xx, 的 那些 值 ,我 们 假定 ao ,a; ,… i 
bir b 是 唯一 确定 的 并 且 每 个 都 是 有 界 的 。 用 hh ，,…,h ,和 ，,…,A” 表示 最 小 
f CV oÉ h,e, A, KIE, IBA h ont aA 一 nb。 同样 ,给 定 
CV, =CV。+(s.o. ) ,我 们 期 望 h, =h +(s.0.), À, =A +(s.o.) ,我 们 在 下 一 
个 定理 中 证 明 这 确实 成 立 。 

定理 5.1 


l⁄(q Is / P 0 
t $ +g 


hd Be, s ml, (5.12) 


net) inf CV, — inf y 依 概率 分 布 
式 (5. 12) 的 证 明 见 Hall 等 (2004) 。 
运用 定理 5. 1 ,我 们 可 以 得 到 &(ylx) 的 渐 近 分 布 。 我 们 将 推迟 讨论 这 个 结 
论 到 5.3 节 , 届 时 我 们 将 讨论 更 一 般 的 允许 存在 不 相关 协 变量 的 情形 。 


5.5.2 最 大 似 然 交错 鉴定 :相关 变量 的 情形 


在 5.2.1 节 讨论 过 的 最 小 二 乘 交 错 鉴定 方法 有 一 些 理想 的 最 优 性 质 ,这 些 
性 质 在 定理 5. 1 中 已 经 给 出 。 然 而 ,最 小 二 乘 交错 鉴定 法 在 条 件 概率 密度 函数 
的 估计 中 计算 成 本 高 ,特别 是 当 样本 容量 较 大 时 。 这 是 因为 目标 函数 CV, ( Bj) 
i, ) 涉 及 三 个 求 和 。 当 样本 容量 较 小 时 ,可 以 通过 把 暂时 权重 矩阵 存储 在 电脑 
内 存 中 而 实现 显著 的 速度 改善 ,而 不 是 在 计算 CV, 时 重新 计算 它们 的 各 个 部 
分 。 但 是 即使 样本 容量 适中 ,存储 这 些 权 重 矩 阵 的 内 存 要 求 将 很 快 超 过 大 多 数 
计算 机 的 存储 能 力 。 这 是 一 个 典型 的 内 存 与 速度 计算 上 的 权衡 取舍 。 然 而 , 相 
比 之 下 ,最 大 似 然 交错 鉴定 从 计算 角度 而 言 有 很 大 的 优点 ,正如 我 们 下 面 证 
明 的 。 

似 然 交错 鉴定 方法 选择 六 ,… h ,A, ,… A, 来 最 大 化 对 数 似 然 函 数 


L= S Ing (Y1 X.) iS: 13) 


Hep gi (Y IX )=f (和 ,也 ) /站 (X) f. XYM a (XDE X, Y,) 
和 ju(X,) 的 去 一 核 估计 量 。 目 标 函数 (5. 13) 中 所 包含 的 求 和 比 最 小 二 乘 交错 
鉴定 少 一 个 ,因此 计算 负担 较 少 。 当 连续 变量 来 自 厚 尾 分 布 时 , 似 然 交错 鉴定 
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存在 一 个 问题 。 在 这 种 情况 下 , 似 然 交 错 鉴定 倾向 于 过 度 平 滑 数据 ,并 且 可 能 
导致 估计 结果 的 不 一 致 ( 见 Hall (1987a,1987b) ) ç 

两 种 实际 的 方法 可 以 用 于 防止 这 个 问题 的 发 生 。 第 一 种 ,可 以 把 似 然 交 错 
鉴定 的 平滑 参数 与 一 些 专门 的 公式 (如 h,=xwn”"““”*”) 相 比较 ,如 果 这 两 种 平 
滑 参数 是 可 以 比较 的 , 则 不 存在 交错 鉴定 法 的 过 度 平滑 问题 。 当 最 大 似 然 交错 
鉴定 过 度 平滑 数据 时 ,存在 两 种 可 能 性 :要 么 它 可 能 会 导致 不 一 致 的 估计 ,要 么 
相关 变量 是 不 相关 的 。 我 们 注意 到 ,在 后 一 种 情况 中 过 度 平滑 实际 上 是 很 理想 
的 。 为 了 区 分 这 两 种 情况 ,人 们 可 以 用 第 二 种 方法 去 比较 基于 似 然 交 错 鉴定 的 
样本 外 预测 与 基于 参数 方法 的 预测 。 如 果 对 所 提供 的 数据 , 非 参数 方法 表现 更 
好 或 者 与 相应 参数 方法 相当 ,这 说 明 似 然 交 错 鉴定 可 能 没有 成 为 潜在 的 不 一 致 
问题 的 受害 者 。 当 然 , 如 果 最 小 二 乘 交 错 鉴定 法 计算 是 可 行 的 ,最 小 二 乘 交 错 
鉴定 平滑 参数 也 可 以 被 计算 出 来 ,那么 它们 也 可 以 用 来 判断 似 然 交 错 鉴定 是 否 
产生 了 不 合理 的 偏 大 的 平滑 参数 。 


5.3 条 件 密度 估计 :无 关 变量 的 情形 


我 们 现在 考虑 有 一 些 协 变量 可 能 是 不 相关 的 情形 。 使 用 4. 5 节 定 义 的 符 
号 ,对 整数 0 和 q; ,qg <q,0<r ,mm 三 r, 满 足 g +q, =q,r, +r =r, A X H X° 的 前 
q, PIERA X’ 的 前 m 个 元 素 组 成 ,X = X 表示 XX 的 剩余 元 素 ,我 们 假定 : 

(Y,X) 独立 于 总 (5. 14) 

条 件 (5. 14) 意味 着 g(ylx,x) =8(ylz) , 即 无 关 变 量 * 不 影响 gylt), H 
一 次 ,我们 没有 事先 假定 该 信息 已 知 ,实际 上 我 们 估计 的 是 g(y1lx) 而 不 是 
sg(ylz) 。 我 们 将 证 明 通过 用 交错 鉴定 法 选择 平滑 参数 ,无 关 变 量 将 被 ( 渐 近 
地 ) 平 滑 掉 。 

函数 xx, 现在 需要 被 修改 为 : 


(aa) = X [([ > — 12108 Z‘) 


x [fas -EEO ay) jr esas, 


taa s [f.(s,y) - Ban} 





Ko f(x,y) \ mla) 
T aa Fed he 
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名 e 但 34 5 x$ 2 = % 


其 中 
“s Sa _ w(K ,Xo a... g) £ 2 
s G ss F 2 EEIE N 
163 我 们 从 定理 4. 8 中 知道 对 于 非 参 数 回 归 ,最 小 二 乘 交 错 鉴 定 渐 近 地 平滑 掉 
了 无 关 变量 。 下 一 个 定理 证 明了 对 交错 鉴定 条 件 密度 估计 而 言 ,类 似 的 结论 依 
然 成 立 。 
定理 5.2 在 类 似 于 定理 4. 8 中 给 出 的 条 件 下 , 令 忆 ,后 s h A.A, 
表示 最 小 化 CV, 的 平滑 参数 ,那么 
dd P, t 0 < j & q, 
P( > C) —1,q, *1 < < 4,38 C > 0 
dad 5. A 1 < rr, 


a pe~l 
À, > > 





wm + l << < r 


n09 inf CV,(h,A) > inf y (5.16) 

Hall 4 (2004) 给 出 了 定理 5.2 的 证 明 ,类 似 于 定理 4.8 ,定理 5.2 说 明了 交 

错 鉴定 平滑 参数 选择 可 以 渐 近 地 移 除 不 相关 的 条 件 变 量 。 下 一 个 定理 给 出 了 
&(Cylxz) 的 渐 近 正 态 分 布 。 


定理 5.3 用 交错 鉴定 平滑 参数 h。,… ,h,, 和 A, ,… ,A, 计算 &(y1x) ,那么 
(nhh ) (BC(y1 x) -g(yl x) - YB,(zy)h - > B,(z,y)À,) 


一 N(0,o (z,y)) 依 分布 收 敛 (5.17) 
其 中 


l “2_ _ 
B. (5,y) = F holo y | x) 








B.G.) = DLO Dzor) -EED D] 
o (元 ,y) = K""'g(yl z)/Rg(x) 
164 到 目前 为 止 我 们 都 是 假定 了 是 一 个 连续 随机 变量 。 现 在 我 们 转向 关注 了 
是 离散 的 情形 。 如 果 了 取 e 个 不 同 的 值 ,那么 我 们 可 以 用 分 类 核 ((y,Y; Ao) = 
Ao? (1-Ao) MO (N,(y) =1(Y, 关 7) ) 来 代替 连续 核 &(y,Y,) =h, k((y- 
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y,)/h。)。 定 理 5.2 将 被 修改 ,用 g,+4 代替 q +5, 用 ns"* ”Ao 一 bo。 代替 
nnt h a. ,其 中 bo 的 定义 方式 类 似 于 如 (s =1,…,r)。 定 理 5.3 也 需要 一 
点 修改 (见习 题 5.1). 

定理 5.2 和 定理 5.3 是 相当 强 有 力 的 结论 ,特别 是 当 数据 包含 离散 和 连续 
数据 的 混合 时 ,有 潜力 扩展 到 非 参 数 方法 。 在 5.5 节 中 ,通过 几 个 实证 应 用 ,我 
们 将 说 明 “ 不 相关 ”变量 经 常 出 现 于 各 种 数据 集 , 并 且 在 样本 外 预测 方面 ,交错 
鉴定 条 件 密度 估计 可 以 胜 过 一 些 广泛 使 用 的 参数 方法 ,甚至 对 离散 单元 的 数量 
与 样本 大 小 相当 的 情形 也 是 如 此 。 


5.4 多 元 因 变 量 的 情形 


在 这 一 节 我 们 将 考虑 当 Y 也 是 一 个 一 般 的 多 元 向 量 时 ,给 定 X,Y 的 条 件 概 
率 密度 函数 的 估计 。 令 Z = (T,Y) ,我 们 也 可 写成 2=(2 ,2 ) ,其 中 2 由 r 个 
离散 变量 组 成 ,其 中 2Z eR’ 代表 连续 元 素 。 为 了 表达 的 简洁 ,我 们 首先 考虑 


Z’ 是 一 个 没有 自然 的 顺序 的 名 义 变量 向 量 的 情形 , Z e |] 10,1,…,c, - 11. 
我 们 记 了 = (大 ,大 ),X = (X°, X) ,并 假定 包含 Z" 的 前 q, 个 连续 元 素 ,而 Y 


包含 Z° 的 前 r, 个 离散 元 素 。 因 此 ,Y e R", e |] 10,1,…,c, -1},X € 


RR" 类 似 地 ,X* < |] 10,1,…,c, -11。 

与 以 前 一 样 , 令 f(z) =f(y,*) 表 示 (Y,X) 的 联合 概率 密度 函数 。? ula) K 
示 站 的 边际 概率 密度 函数 ,g(ylx) =f(y,x)/u(x) ERE X =x 下 表示 了 的 条 
件 概率 密度 函数 。 

我 们 用 Zs 表示 Z, 的 第 * 个 元 素 。 同 5. 1 节 一 样 ,对 于 2; ,2 e 10,1,…， 
c,- 11 ,我 们 定义 一 个 一 元 核 函 数 :如 果 Z. = 2 ,1(2%,2;,A,) = 1 - A,; 如 果 
Za # Zi,l(Zi,Zs,A,) = A,/(c, -1) RRR L ziz = [Juzizi A.) 给 
Hi. 

令 2 表示 Zt 的 第 s 个 元 素 ,w( ' ) 表 示 一 个 一 元 核 函 数 ,多 (. ) 表 示 一 个 关 
于 Z° 的 乘积 核 函 数 ,我 们 记 W, Z [|A e (Z, - Z) /h,) o 


D 根据 情况 ,我们 有 时 候 把 联合 概率 密度 函数 记 为 /(z ,zx ) 而 不 是 f(y,x) ,其 中 xz =(Y zx) ,z' = 
O ls 
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为 了 避免 引入 太 多 的 符号 ,我 们 将 使 用 相同 的 符号 ) 和 W(…) 来 表示 7 
和 YY BRRR, Ly = [11TA Wany = [1A wr, - 


def 


区)M)。 类 似 地 ,我 们 定义 Lr = [XAA W. aa = 


J 


[LD 中 全 
T BAFRA pa): 
其 中 Kyaa = La apa Wages K, aa = Baap Wa ase 因此 ,我 们 通过 下 式 信 计 


g(ylx) =f(x,y)/u(x): 


¿G x) = BED (5. 19) 


( 
A(x) 

我 们 通过 交错 鉴定 法 来 选择 平滑 参数 , 它 最 小 化 一 个 样本 的 加 权 积 分 均 方 
误差 1, ,其 中 


[ faz = > faz) m fioi z) -g(yl x)]’u(x)dz = I, - 24, + l, 
1, = | TEC! z)l'a(a)dz 
h, = [8(y1 x) gy! x)u(x)dz 


rn. = Lely! x) 'a(a)dz 


同 前 文 一 样 ,独立 于 (h,A)。 因 此 ,关于 (h,A) 最 小 化 1, 等 价 于 最 小 化 
lin -21,.o 


定义 fA(X,Y,) 和 应 (X,) 的 去 一 估计 量 为 : 


á 1 ” 
f-.,(X,,Y,) = pa py K, ç, 


i=l,#1 
à 1 ~ 
ña (K, = — > K, y, (5.20) 
了 Li=Tii 


同样 地 ,定义 G_,(X,) 为 
ë (X) su Y Y K, K. KI (5.21) 


其 中 Km = > JK, a. 
然后 ,通过 使 用 了 5.1 节 中 类 似 的 论证 ,Racine % (2004) WEH T 1, - 六, 的 
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一 个 一 致 估计 量 : 
à ë, (X.,) | AIF) 


l nC 
VA) TA Ta CDP rA A O 


HP f,(X,,Y,) A a (Xi) aa s 20) 和 式 (5.21) 中 给 出 。 
接着 ,我 们 选择 (h,A) = (hsr h, At A) 去 最 小 化 式 (5. 22) 中 定义 

的 目标 函数 CV(h,A)。 用 (h, 和 ) 表 示 交 错 鉴定 的 (h,A) 的 选择 。 由 于 我 们 已 

经 知道 无 关 的 独立 变量 将 被 渐 近 地 平滑 掉 , 因 此 ,下 面 的 分 析 我 们 只 考虑 所 有 


独立 变量 都 相关 的 情况 。Racine 4 (2004) WEH TÁ,/h 一 1 ,Å,/A° -1 ,其 中 
h? = Y iii | $ = 1 ,sg 


-2⁄(4 +q) a I 
s$ = Iç T 


0 
A. V c.n 


其 中 c, AI c, E e R, (h°, A) E hk | 4k 2 $B 3 E p8 $k 8 Ji BJ 3E Bü HL B t F W 
参数 (5.23) 

定理 5.4 IRh T (A,A RTF (h. A’) 的 收敛 速度 ,证明 见 Racine 等 (2004) 。 

定理 5.4 在 Racine 等 (2004) 给 出 的 假定 下 ,我 们 有 (h, -h )/k = 
O (n “t ),s=1,…,g, 以 及 A,—A" = O (n ),s=1,-",r,JtriP a = min[2, 
q/2} ,B =min|1⁄2,4/(4 +q) ç 

给 定 定理 5.4., 我 们 可 以 进一步 证 明 以 下 定理 : 

定理 5.5 定义 

B,,(z) = (1/2)xw,f.(y!| x)/g(x),s = 1,-:-,q, 

令 

B,,(z) = (1⁄2)x<,[/.,(z) —,,(zx)g(y! x)]/g(sx),s = q, + 1,---,q 
同样 地 ,定义 





2 = c- 1 PRA 类) = Ts 


Bata) = X LAE u) 
—g(yl x)u(x u) /M(x),s = r, +1l,,r 
又 因为 O(z) =r°g(ylx)/u(x) ,所 以 
Vahh, | éC! x) — g(yl x) - Y P'B,,(z) 一 > A,B,.(2) | 
依 分 布 收敛 于 N(0,0(:)) 。 


定理 5.5 的 证 明 在 5. 4. 2 节 给 出 。 
我 们 现在 考虑 怎样 把 上 面 的 分 析 延 伸 到 Z° 包含 有 序 的 分 类 变量 的 情形 。 
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5.4.1 广义 分 类 数据 的 情形 


关于 有 序 的 分 类 变量 , Aitchison 和 Aitken ( 1976 , p. 29 ) 建议 使 用 加 权 核 
PŘ Š: 


L(V,A) = [Ħa -at Y —- Ya 1 = r Bf,0 < 
t 


is? js 


(5.24) 
其 中 | =c,1/[4l(e, -4t)1]。 正 如 先前 所 讨论 的 ,这 个 核 函 数 有 一 个 优点 , 那 


就 是 它 导致 了 一 个 合适 的 密度 估计 量 ( 核 i 加 总 为 1) ,但 是 它 有 一 个 缺点 ,就 
eerie 因为 无 关 的 离散 变量 仅仅 出 现在 协 变量 X° 中 ,我 们 
建议 仅仅 对 于 离散 有 序 因 变量 Y ,使 用 在 式 (5. 24) 中 定义 的 核 ,而 对 于 有 序 
离散 自 变 量 XX”, 我们 建议 使 用 下 面 的 核 函 数 : 
(El = kt 31 Tu — X 1 = sÜl,0 < + ç e, (5.25) 
其 中 A,e [0,1], A, =1 时 ,我 们 得 到 一 个 均匀 的 权重 1， Fir LA FE $Z PR ROX Fp 
选择 下 ,X” 中 的 无 关 元 素 将 被 自动 移 除 。 注 意 ,我 们 并 不 需要 关于 X° 的 核 加 总 
为 1 的 条 件 , 因 为 在 条 件 密度 估 计 中 ,关于 X" 的 核 同时 出 现在 分 子 和 分 母 之 
中 ,因此 ,任何 非 零 常数 乘 以 这 个 核 函数 都 将 在 分 子 和 分 母 中 被 消 掉 ,使 得 估计 
结果 不 变 。 
定理 5.4 和 定理 5.5 EE E E 


自然 顺序 的 情形 ,除了 当 <= 具有 自然 顺序 时 ,一 一 1,(w sx") 必须 用 1(1 ut - 
zt1= 1) []1G = <) 84%, 54 y A as = 1⁄c,), 
HALO yO 必须 用 二 1(1 yt -ot = D II1O2 = e) Ro 


5.4.2 定理 5.5 的 证 明 


证 明 :通过 使 用 随机 等 连续 (stochastic equicontinuity ) 理论 ,我 们 知道 无 论 
我 们 使 用 随机 平滑 参数 h, ,和 A, 还 是 使 用 式 (5. 23) 中 定义 的 非 随机 平滑 参数 h, = 
cun OA A, Seun O ,8g(ylx) 的 浙 近 分 布 保持 不 变 。 因 此 ,我 们 在 证 明 


中 只 考虑 非 随机 平滑 参数 的 情形 。 
< 
aii = W, L, yg. K, ,., š W, j. L, aa 
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我 们 分 别 估 计 f(y,x) w(x) 和 gg(y1x);} 


Agaj = 
n 


iM 
> 
> 


EE 


为 了 得 到 g(ylx) -g(ylx) 的 渐 近 正 态 性 ,我 们 记 169 


[g(y| x) - g(y| x)lúlx) _ m(y,x) 
A(x) A(x) 


Hp ñ(y,z) =[lélylx) -—g(ylz)]ñ(x)=f(y,zx) —g(ylz)&(x), 
我 们 接 下 去 计算 E[m(y,z)] # var(m(y,z)), HEB 
E[m(y,x)] = E[f/(y,x)] - g(y!| x)E[ñ(x)] (5.26) 





g(yl x) -g(yl zx) = 


而 
ELA(y,z)] Aya) + 2 Y Bf. (yz) 


À 
ü 站 = s LAARIN] +o(l h1? +I A1)(5.27) 
其 中 f(z) = af (z)/0 (2)? Cs = 1,1g) a = fk C) ?’dv,l hl? = A À | 


= Fis 
类 似 地 ， 
E[ñ(z)] =p(x) +Z Y hp) 


i À, d d c d 
Fun Ga r Ft i )u( x su ) 


+o(l h,!?° +I A, l) (5.28) 





其 中 1 h, I? = s Ki, l Al = y A,o 
将 式 (5.27) 和 式 (5.28) 代 入 式 (5.26) ,我 们 得 到 


E[m(y,x)] = > hiB,(z) + > A.B, (z) +o(l hl? +I A1) (5.29) 
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170 接着 , 记 H = heeh,, fdz = > fis ,我 们 有 


var[m(y,x)] = var[ f(y,x) -g(yl x)A(x)] 


= L varl EK, y, -g(y! x) ]x, ep ) | 
一 —IEI[K, ss 一 g(yl x)] K; .| + 0(1)| 
ji LIEUR pK, mpa] k 0(1) | 


n {SA NA dz + 0(1)} 


= n {a fz + hv,z’) W?’ (v)dv + of 万 ) } 


= (nH,) kf(y,x) + (s.o0.) (5. 30) 

式 (5.29) 和 式 (5. 30) 给 出 了 m(y,x) 的 偏 误 首 项 和 方差 首 项 。 为 了 最 优 

平滑 , 即 h — | (ss=1,…,g),A, 一 nn “*9(s=1,…,r) ,那么 根据 式 
(5.29) 式 (5.30) ,并 应 用 Liapunov 中 心 极限 定理 ,我 们 知道 


nH, { ù(y,x) - [ X KB.) n 5 A.B (2) J) 


L N(0,K'f(y,2)) (5.31) 
注意 到 这 可 以 得 出 


ñ(z) -p(x) = 0,[ > 居 +(nhoo im) 2 (5.32) 
171 联 立 式 (5.31) 和 式 (5.32) ,我 们 立即 有 : 
VLA GEA x) -— g(yl x) - 2 h,B,(z) 一 5 AB,,(z) | 
= aH, { ñ(y,z) - ñ(x) | Ş hèB, (2) + > B, (z) | AG) 
= JnR, { (ya) - u(x) | DBs) + > B,,(z) ] }/ nl) + 0,(1) 


d 
NO Aya) = N(O,<x'g(yl x) /n(x)) (5.33) 
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55 应 用 


5.5.1 一 个 腐败 的 非 参数 分 析 


政治 腐败 (或 相关 概念 ) 在 政治 理论 和 经 济 发 展 理论 中 发 挥 着 重要 作用 。 
不 同 国家 随时 间 在 腐败 上 是 否 收敛 ,或 者 腐败 随时 间 的 持续 在 分 布 上 是 否 类 
似 ,仍然 是 一 个 继续 有 争议 的 话题 。 

腐败 感知 指数 (corruption perception index,CPI) ?了 按 可 感知 的 腐败 情况 对 各 
国 进行 排序 。CPI 的 取 值 在 0 一 10 之 间 ,10 表示 不 存在 腐败 。 参 考 McAdam 和 
Rummel(2004) 中 采用 的 分 析 思 路 ,他 们 考察 了 一 个 40 个 国家 的 面板 ,包含 
1995—2002 年 的 全 部 记录 ,我 们 创建 了 一 个 45 个 国家 的 平衡 面板 ,包含 1996 一 
2004 年 这 9 年 的 全 部 记录 。 对 这 个 有 n=405 个 观测 值 的 面板 ,我们 使 用 本 章 
讨论 过 的 方法 ,以 年 份 为 条 件 估计 出 了 CPI 的 条 件 概率 密度 函数 。 这 一 估计 的 
条 件 概 率 密 度 函 数 在 图 5.1 中 绘 出 。 
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(X 
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Š 全 AN 
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~ QR A, W DEN 
ao XX AN? RVA w. SN 
ANTAN 
D Ñ \ \) $ 
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图 5.1 腐败 感知 指数 的 条 件 概率 密度 函数 ,1996 一 2004 年 ,n =405 


我 们 把 年 份 看 成 有 序 分 类 变量 ,最 小 二 乘 交错 鉴定 法 的 窗 宽 是 上 六 。= 0. 224 
和 A 和, =1.00(A,。 的 上 界 值 ) 。A,。。 的 交错 鉴定 值 表明 全 部 年 份 数据 的 合并 是 
合理 的 , 即 关于 时 间 在 分 布 上 没有 明显 的 变化 。 这 个 发 现 支持 了 持续 性 的 假定 
( 即 分 布 在 时 间 上 稳定 ) ,而 估计 出 的 概率 密度 函数 的 形状 与 多 重 均衡 ( 即 多 种 
模式 ) 一致 。 这 些 结果 与 McAdam 和 Rummel (2004 ,p. 509 ) 的 一 致 ,他 们 称 “ 我 
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们 的 发 现 支持 理论 文献 中 提出 的 关注 , 即 腐败 可 以 具有 高 度 的 持久 性 ,并 具有 
多 种 均衡 的 特征 ”。 


5.5.2 婚外情 数据 


在 一 篇 被 广泛 引用 的 文献 中 ,Fair(1978 ) 提出 了 一 种 "婚外情 理论 "并 考虑 
了 个 人 时 间 在 工作 和 两 种 休闲 活动 即 与 妻子 和 情人 在 一 起 的 时 间 的 分 配 。 这 
个 独特 的 数据 集 来 自 两 个 杂志 的 调查 ,Fair 采用 一 个 参数 Tobit 估计 量 来 对 每 
年 的 婚外情 数据 建 模 。 这 个 数据 集 以 及 计量 经 济 学 的 方法 继续 引起 了 学 者 们 
的 兴趣 。Pagan 和 Vella( 1989), Chernozhukov 和 Hong (2002), Wells (2003), 
以 及 Li 和 Racine ( 2004b ) 对 原始 研究 中 的 证 据 和 使 用 的 经 济 计 量 方法 进行 了 
复查 。 

这 个 研究 一 个 相当 吸引 人 的 方面 是 一 个 人 的 个 人 特征 对 参加 婚外情 活动 
倾向 的 潜在 影响 。 特 别 地 ,Fair( 1978 ) 发 现 夫妻 间 的 不 忠实 随 结婚 年 数 的 增加 
而 显著 增加 。Pagan 和 Vella(1989 ) 通过 各 种 诊断 检验 对 这 个 发 现 的 有 效 性 提 
出 质疑 ,并 且 也 提出 一 个 离散 计数 模型 要 比 Fair 使 用 的 Tobit 模型 更 加 合适 ,而 
Wells( 2003 ) 所 做 的 分 析 认 为 ,结婚 时 间 越 长 人 们 也 许 更 倾向 于 “ 鬼混 ”。 

数据 由 9 个 变量 的 601 个 观测 值 组 成 ,性 别 (0/1) ,年 龄 (9 个 组 ) ,结婚 年 
数 (8 个 组 ) ,孩子 (0/1) ,宗教 程度 (1 一 5), 受 教育 水 平 (7 个 组 ) ,职业 (7 个 


组 ) ,婚姻 评价 (1 一 5 ) ,在 过 去 的 一 年 中 婚 外 性 行为 的 次 数 (0 = 没有 ,1 = 1 次 ， 
2=2 次 ,3=3 次 ,7 =4 一 10 次 ,12 = 每 月 一 次 或 者 更 加 频繁 ) 。 显 然 , 这 些 变量 
每 一 个 都 是 分 类 的 。 


Fair( 1978 ) 所 使 用 的 Tobit 设 定 中 有 一 个 与 结婚 年 数 相关 联 的 正 的 并 且 显 
著 的 参数 ,这 一 点 与 一 个 Poisson 计数 模型 和 一 个 简单 线性 模型 是 相同 的 。 然 
而 ,这 些 模型 有 一 个 相同 的 特征 就 是 线性 指数 设 定 。 由 于 缺少 交互 项 ,一 些 变 
量 的 离散 和 无 序 的 性 质 会 带 来 对 这 些 设 定 合适 性 的 质疑 。 

自动 窗 宽 选 择 方 法 如 交错 鉴定 法 的 一 个 特征 是 通过 给 相关 窗 宽 选择 一 个 
较 大 的 值 消除 不 相关 的 变量 的 能 力 。 因 此 我 们 应 用 交错 鉴定 法 条 件 密度 估计 
量 并 检验 交错 鉴定 窗 宽 的 表现 。 我 们 把 性 别 .孩子 .职业 看 成 是 无 序 的 , 剩 下 的 
变量 则 看 成 是 有 序 分 类 变量 。 

从 表 5.1 中 我 们 可 以 观察 到 与 结婚 年 数 相 关 的 交错 鉴定 平滑 参数 位 于 它 
们 的 上 界 值 ,这 表明 结婚 年 数 与 婚外情 次 数 的 预测 是 不 相关 的 。 实 际 上 ,从 预 
测 的 角度 ,表现 出 相关 的 变量 只 有 年 龄 、 被 访 者 声称 的 宗教 程度 ,以 及 不 意外 
地 ,被 访 者 对 其 婚姻 的 评价 。 
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表 5.1 条 件 密度 ,最 小 二 乘 交 错 鉴 定 法 


变量 À LF 
婚外情 次 数 0.019 0.833 
性 别 0.500 0.500 
孩子 0. 500 0. 500 
职业 0.857 0.857 
年 龄 0. 886 1.000 
结婚 年 数 1.000 1.000 
宗教 0.290 1.000 
教育 1.000 1. 000 
婚姻 评价 0.329 1.000 


为 了 更 好 地 理解 为 什么 参数 和 非 参 数 方法 产生 不 同 的 结果 ,我 们 更 加 详细 地 讨 
论 非 参数 的 估计 结果 。 图 5.2 画 出 了 非 参 数 模型 中 当 所 有 其 他 的 协 变量 固定 
在 它们 的 中 位 数 不 变 时 ,以 年 龄 为 条 件 的 婚外情 发 生 的 期 望 次 数 。 我 们 观察 到 
年 龄 和 婚外情 次 数 之 间 的 关系 是 非 线 性 的 , 较 年 轻 时 是 平 的 和 /或 向 上 倾斜 的 ， 
对 年 龄 超过 40 的 人 们 表现 出 一 个 向 下 的 趋势 。 因 此 , 非 参 数 的 结果 表明 年 龄 
对 婚外情 次 数 有 一 个 非 线性 的 影响 ,然而 ,在 年 龄 和 其 他 相关 的 协 变量 条 件 下 ， 
结婚 年 数 与 婚外情 次 数 是 独立 的 。 结 婚 年 数 和 年 龄 是 高 度 相关 的 协 向 量 ,并 且 
简单 参数 模型 假定 每 个 协 变量 要 么 只 有 一 个 全 局 为 正 的 影响 ,要 么 仅 有 一 个 负 
的 影响 。 当 真实 关系 是 非 线性 时 ,比如 年 龄 ,在 一 个 范围 内 年 龄 有 正 的 影响 ,而 
在 另 一 个 范围 内 则 有 负 的 影响 。 参 数 模型 表现 出 错误 地 认为 年 龄 协 变量 有 一 
个 负 效 应 ,并 试图 用 线性 指数 函数 为 年 龄 中 的 非 线性 建 模 (更 年 轻 时 向 上 倾斜 
的 部 分 ) ,参数 模型 引入 一 个 不 相关 协 变量 (其 与 年 轻 的 年 龄 高 度 相关 ) 并 且 为 
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图 5.2 在 年 龄 条 件 下 的 期 望 婚 外 情 次 数 ,保持 变量 在 它们 的 中 位 数 不 变 
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它 分 配 了 一 个 显著 的 正 的 符号 。 

上 面 的 分 析 是 基于 这 样 的 假定 , 非 参 数 方 法 对 数据 比 参 数 设 定 更 加 可 靠 。 
为 了 评估 是 否 的 确 是 这 样 的 情况 ,我 们 对 核 方法 和 表现 最 好 的 参数 模型 (有 序 
Logit 设 定 ) 考 虑 了 样本 内 预测 。 非 参数 方法 和 有 序 Logit 正确 预测 婚外情 次 数 
分 别 达 到 79.2% 和 75.0% 。 同 样 ,对 于 150 个 报告 有 正 婚 外 情 次 数 的 人 来 说 ， 
非 参 数 方法 正确 预测 的 次 数 是 25 人 (16.7% ) ,有 序 Logic 模型 正确 预测 的 只 有 
3 人 (2.0% ) 。 预 测 结果 表明 参数 模型 是 错误 设 定 的 。 

Fair(1978) 中 所 研究 的 婚外情 数据 是 一 个 继续 产生 争论 的 丰富 的 数据 集 。 
现 有 的 工作 主要 关注 基于 参数 线性 单一 指数 模型 的 设 定 检 验 。 相 关 协 变量 可 
能 的 非 线 性 在 很 大 程度 上 被 忽视 了 。 我 们 转 而 关注 参数 错误 设 定 对 评价 预测 
值 的 影响 ,并 得 出 结论 ,一 个 长 期 被 认为 是 一 个 显著 的 婚外情 预测 元 的 协 变量 ， 
结婚 年 数 ,实际 上 没有 表现 出 与 一 个 人 参与 婚外情 活动 增加 的 倾向 是 关联 的 。 


5.5.3 已 婚 女 性 劳动 参与 率 


我 们 现在 来 考虑 一 个 简单 的 应 用 ,我 们 为 已 婚 瑞士 女性 参与 劳动 的 决定 建 
模 , 只 以 她 们 的 非 劳 动 收入 为 基础 。 我 们 使 用 Cerfin(1996 ) 的 数据 ,文中 使 用 了 
一 个 样本 大 小 为 上 =872 的 横 截 面 数据 集 为 瑞士 已 婚 女性 的 劳动 市 场 参与 率 建 
模 。 为 了 当前 的 目的 ,我 们 简单 考虑 使 用 核 估 计 来 得 到 参与 率 的 条 件 概率 , 它 
是 非 劳动 收入 的 一 个 函数 。 我 们 还 采用 了 一 个 被 Gerfin 使 用 的 含有 线性 指数 
的 Probit 模型 。 关 于 核 方法 ,Aitchison 和 Aitken(1976 ) 核 被 用 于 二 元 的 劳动 参 
与 率 变量 ,高 斯 核 被 用 于 连续 的 非 劳动 收入 的 变量 , 窗 宽 由 极 大 似 然 交错 鉴定 
法 选择 (An =0. 07 ,hsone =0.16)。 为 了 防止 由 似 然 法 所 造成 的 潜在 的 过 度 
平滑 ,我 们 也 计算 了 最 小 二 乘 交 错 鉴定 窗 宽 (A =0.03,h=0.11) ,以 及 一 个 特别 
的 值 h=x,n ”=0.11, 其 中 zx 是 非 劳 动 收入 对 数 的 样本 标准 差 。 不 同 的 方法 
得 出 相似 的 h 值 ,支持 了 在 这 个 应 用 中 似 然 交 错 鉴定 法 的 使 用 ( 即 用 各 种 方法 
去 选择 入 和 4h, 人 们 得 到 相似 的 结果 )。 

首先 ,在 图 5.3 中 我 们 注意 到 参数 和 非 参 数 方法 大 体 上 是 一 致 的 ,表明 了 
一 种 可 能 性 , 随 着 非 劳 动 收 入 的 增加 劳动 参与 率 从 超过 50% 下 降 到 20% 左右 。 
然而 , 核 方 法 发 现 了 在 低 水 平 的 非 劳 动 收 入 下 劳动 参与 率 有 一 个 上 升 ,然后 随 
着 非 劳动 收入 的 提高 开始 下 降 。Juhn 和 Murphy (1997 ) 对 此 提出 了 一 个 可 能 的 
解释 ,他 们 认为 低 工作 能 力 的 女性 倾向 于 嫁 给 低 工作 能 力 的 男性 ;并 且 低 工作 
能 力 的 男性 收入 也 低 , 这 意味 着 他 们 妻子 的 非 劳 动 收入 也 倾向 于 较 低 。 对 于 低 
水 平 的 非 劳 动 收入 ,这 些 女性 因 其 低 观 测 值 ( 即 能 力 ) ,她 们 在 家 里 的 生产 力 高 
于 在 劳动 市 场 的 生产 力 。 然 而 , 随 着 男性 收入 的 增加 ,女性 的 观测 值 (能 力 ) 倾 
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图 5.3 Gerfin 数据 劳动 参与 率 条 件 概 率 的 核 估计 (PLY=1lx]) 


向 于 提高 ,这 就 导致 更 高 的 女性 劳动 参与 率 。 在 某 些 时 候 , 当 非 劳动 收入 的 影 
响 ( 即 财富 效应 ) 开 始 按 预 期 占 优势 时 ,女性 劳动 参与 率 就 开始 下 降 。 


5.5.4 劳动 生产 率 


我 们 使 用 一 个 在 van Dijk 和 Szirmai ( 2003 ) 中 报告 的 非 平 衡 面板 数据 来 衡 
量 印度 尼 西 亚 纸浆 和 造纸 公司 在 1975 一 1997 年 的 劳动 生产 率 。 这 个 数据 集 有 
一 些 有 趣 的 特征 。 第 一 个 印度 尼 西 亚 造纸 工厂 建立 于 1923 年 ,直到 1974 年 才 
仅仅 建立 了 6 个 国有 工厂 。 印 刷 和 书写 纸 市 场 在 1974 一 1984 年 间 发 展 迅 速 , 工 
厂 的 数量 也 从 7 个 上 升 到 了 33 个 ,并且 所 有 新 建 工厂 都 是 私人 所 有 的 。 在 这 
个 面板 中 ,一 些 年 份 (单元 ) 非 常 稀 朴 , 少 到 只 包含 8 个 观测 数据 ,而 最 大 的 单元 
仅 包 含 52 个 观测 数据 ,总 共有 n=783 个 观测 值 。 因 此 在 离散 协 变量 年 份 的 条 
件 下 ,我们 考虑 为 劳动 生产 率 的 条 件 概 率 密度 函数 建 模 。 高 斯 核 用 于 劳动 生产 
率 ,Aitchison 和 Aitken(1976) 核 被 用 于 年 份 。 最 大 似 然 交 错 鉴 定 被 用 于 窗 宽 选 
FE JEP hus =1044.07,A,., =0.28。 

在 1983 年 引入 的 一 个 主要 的 政策 改变 是 旨 在 鼓励 这 个 行业 的 增长 ,因此 
观察 在 1983 年 前 后 生产 率 是 否 表现 出 不 同 是 有 意义 的 。 在 图 5.4 中 ,我们 观 
察 到 劳动 生产 率 在 20 世纪 80 年 代 末 直到 整个 90 年 代 有 一 个 变动 。 当 单元 的 
数量 相对 于 样本 大 小 较 大 时 ,这 个 例子 突出 了 来 自 平滑 离散 数据 带 来 的 潜在 
好 处 。 
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图 5.4 在 时 间 条 件 下 劳动 生产 率 概率 密度 函数 的 核 估计 


5.5.5 多 元 变量 了 条 件 密度 例子 :OECD 条 件 下 的 GDP 增长 和 人 口 增长 


我 们 采用 Maasoumi, Racine 和 Stengos(2007 ) 所 使 用 的 数据 集 ,他们 考察 了 

有 关 经 济 增长 速度 和 存在 “收敛 俱乐部 "的 问题 。 对 于 目前 的 例子 ,我们 的 目标 
只 是 说 明 用 窗 宽 选 择 的 数据 驱动 方法 去 估计 多 元 Y 条 件 概率 密度 函数 是 直接 
的 。 用 例子 中 的 方法 ,我 们 把 88 个 国家 的 7 个 五 年 期 的 面板 数据 合并 ,分 别 是 
1960—1964 年 ,1965 一 1969 年 ,1970 一 1974 年 ,1975 一 1979 年 ,1980 一 1984 年 ， 
1985—1989 年 ,1990 一 1994 年 ,总 共有 n=616 个 观测 数据 。 我 们 考虑 以 下 的 变 
量 :y, ,每 个 时 期 的 人 均 收入 增 

和 长 率 ;y, ,在 每 个 时 期 每 年 人 口 
} 的 增长 率 ;x, OECD 身份 (0/ 

1)。 人 均 GDP 的 年 平均 增长 
率 和 每 期 的 人 口 数量 来 自 世 
界 银行 。 我 们 估计 条 件 密度 
f(y1,7Ys1x) 并 在 图 5.5 中 给 出 
条 件 概 率 密 度 函 数 的 结果 ,也 


w ays gés 77.5 8 85? 9.5 就 是 绘制 f(y ,ww 1X =0) 和 
54 4.5 £ 


图 5.5 多 元 了 条 件 概率 密度 函数 Ar y | X = 1), Hall 等 
(2004) 采用 最 小 二 乘 交错 鉴 


Jv yx) 
° 
= 
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m 2 m= i s * m = 


定 法 得 到 ,其 中 hc;。=0.96,h,ss =0.21,Aurco = 0.00. 

图 5.5 给 出 了 多 元 Y 条 件 概率 密度 函数 的 清晰 画面 。 非 OECD 国家 的 联 
合 概率 密度 函数 有 约 7.3% 的 人 口 增长 率 模式 ,然而 OECD 国家 在 此 期 间 约 为 
5.7% , 非 OECD 国家 的 CDP 增长 率 模式 约 为 1.8% ,OECD 国家 约 为 2.7% 。 


56 J 题 


习题 5.1 当 了 为 一 个 离散 变量 时 ,比如 ， 
Y e S = {10,1,.%,co -1l 


证 明 式 (5. 17) 应 该 被 修改 为 : 
(nh hn)? (z0 x) — g(y l x) - > B,,(z,y) k? = > B,(x,y) Â, ) 


—N(0,0 (x,y)) 








其 中 
ss l < “2 f | x LL, x 
B,.(x,y) = z 之 r -A Dayi 了 | 
À f/f =€ Ñ—d 
B, (x,y) " s; > 1(2,y) {8(z1 x° ,0 ) “ety z)| 
Zde Sd 


r 





+ 


y X LG D {By z.) -EE Dayi p] 
s. (š,y) = k%g(yl x)/Rg(z) 

其 中 A 是 用 交错 鉴定 法 选择 的 关于 y 的 平滑 参数 。 

习题 5.2 运用 我 们 已 经 在 习题 2.11 中 使 用 过 的 ,由 Pagan 和 Ullah(1999， 
pp. 154—155 ) 给 出 的 数据 集 ,运用 一 个 收入 组 合 的 局 部 常数 核 估计 (对 不 同年 
龄 的 收入 取 对 数 ) ,用 最 小 二 乘 交 错 鉴定 法 生成 以 年 龄 为 条 件 的 收入 的 概率 密 
EKM. 

接着 , 画 出 得 到 的 条 件 概率 密度 函数 ,对 比 在 习题 2. 11 中 用 条 件 均值 函数 
得 到 的 估计 。 你 能 很 好 地 想象 从 条 件 密度 函数 中 得 到 的 条 件 均值 函数 吗 ? 
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第 6 章 条件 累积 分 布 
函数 与 分 位 数 估计 


我 们 在 第 2 章 讨 论 的 条 件 均值 函数 ( 即 回归 了 婧 数 ) 
毫 无 疑问 在 所 有 的 应 用 数据 分 析 中 是 最 流行 的 。 然 而 
条 件 均值 有 时 不 是 人 们 可 能 考虑 的 最 适用 的 目标 。 比 
如 ,如 果 因 变量 是 截断 的 ,基于 这 个 截断 数据 的 条 件 均 
值 函数 可 能 极 大 地 偏离 了 和 未 截断 的 总 体 相 关联 的 真 
实 条 件 均 值 郴 数 。 后 者 是 应 用 经 济 学 者 特别 感 兴趣 的 。 
在 这 种 情况 下 ,所 谓 的 分 位 数 回归 函数 可 能 更 加 稳健 ， 
并 提供 了 一 种 可 行 的 替代 条 件 均值 回归 函数 的 选择 。 
除了 当 截 断 数据 出 现时 稳健 外 ,还 可 以 通过 估计 一 系列 
条 件 分 位 数 得 到 因 变 量 条 件 分 布 的 一 个 更 加 全 面 的 图 
像 而 不 仅仅 是 简单 地 呈现 条 件 均 值 本 身 。 对 于 分 位 数 
回归 方法 的 一 个 完整 处 理 可 参见 Koenker( 2005 ) 。 

在 这 一 章 , 我 们 开始 研究 在 非 参 数 背 景 中 估计 一 个 
条 件 累积 分 布 函 数 。 我 们 首先 讨论 只 有 连续 协 变量 的 
条 件 累 积分 布 函数 的 估计 。 经 常 让 人 直接 关注 的 条 件 
分 位 数 函 数 可 以 通过 条 件 累积 分 布 函 数 直 接 得 到 ,以 及 
通过 对 条 件 累 积分 布 函数 进行 简单 的 转化 得 到 。 在 考 
虑 了 只 有 连续 数据 情况 后 ,我 们 接着 证 明 这 个 结论 可 以 
容易 地 扩展 到 混合 了 离散 和 连续 协 变量 的 情形 ,这 是 应 
用 背景 下 经 常 面临 的 情形 。 


6.1 没有 平滑 因 变 量 情况 下 估计 具有 
连续 协 变量 的 条 件 累 积分 布 函 数 


我 们 首先 考虑 一 个 没有 平滑 因 变 量 的 条 件 累积 分 
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li x aè E č g x G e 


布 函数 估计 量 。 这 个 估计 量 在 思想 上 与 我 们 在 第 2 章 中 讨论 的 局 部 常数 回归 
估计 量 的 估计 式 类 似 。 我 们 使 用 F(y1x) 表 示 在 给 定 和 =x 时 了 的 累积 分 布 函 
数 ,u(x) 是 X 的 边际 密度 函数 。 注 意 F(ylx) =E[1(Y,<y)1X;=xj] 是 在 X=x 
条 件 下 1(Y,<<y) 的 条 件 均值 函数 ,这 说 明 人 们 可 以 使 用 在 第 4 章 中 讨论 的 条 件 
均值 ( 回归) 函数 估计 量 去 估计 F(ylx)。 于 是 ,我 们 估计 F(ylx) 为 


a SIO, < y) W,(X,,z) 


F(yl x) = (6.1) 


A(x) 
其 中 ，A(xz) = n> W,(X,,z) 是 p(x) 的 核 估 计量 ,W(Xi,x) = 


[A wC (X, -XX,)/h,), 且 w(*) 是 一 个 一 元 核 函 数 。 


我 们 做 出 如 下 的 假定 : 

假定 6.1 jy(x) 和 F(ylx) 两 者 关于 x" 都 具有 连续 的 二 阶 导数 。w(…) 是 
对 称 \ 有 界 `. 具 有 紧 支 撑 的 概率 密度 函数 。 

假定 6.2 BE n>a 时 ,对 于 所 有 的 s=1,…,g,nh,…h—% ,一 0。 

HF s = 1,…,g, 仿 A,(y,x) = ƏA(y,x)/0x,,A,.(y,z) = @A(y,x)/Əx2? ， 


A,(y,*) 到 ƏA(y,x)/Əy,Aə(y,z) = ƏA'(y,x)/Əy' ,nk = fw) dr,k = 


fe (s) do, GP <° = [I fw o), = LAOK 

我 们 记 F(ylx) -F(ylx)=M(y, x)(x), $P M(y,x)=[F(ylx) - 
F(ylx)]ñ(x), FEKE HT F(ylx) AEA 

定理 6.1 在 假定 6.1 和 6.2 下 ,也 假定 (x) >0 A F(ylx) > 0, RIA 

G) E[M(y,a)] = u(x) | X WB, Cya) | +o( X m) ,其 中 

B,(y,x) = (1/2)k, [F „(yl x) +2,(x)F,(y! x)/u(x)] 
(ii) var[M(y,x)] = (nhh, ) p(x) En, + 0C (nhh) ) ,其 中 
Xaa = K'F(yl x)[1 - F(yl x)]/u(x) 


(iii) 如 果 (nhy…h,)'” X h; = o(1), 那 么 


(nh--h) 2 [FC 1 x) = FCI x) -六 是 Brz)] SNO, 3p.) 


定理 6.1 的 证 明 在 6. 9 节 给 出 。 
利用 
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“a v K È € x m” A 


F(yl x) - F(yl x) = M(y,x)/ù(x) 
= Wy,x) /p(x) + 0, [ 5a + (nheeh, ) 
定理 6. 1 意味 着 
MSE | P(yl <)! = [ Y KB,» J pae +(s.0.) (6.2) 
其 中 ,(s.0. ) 表 示 ( 被 忽略 的 ) 更 低 阶 项 。 E 
如 果 我 们 选择 hh ,… h, 最 小 化 一 个 由 |MSE[F(y1 x) ]s(y,x) dady 给 出 的 


加 权 积 分 均 方 误差 ,这 里 s(y,*) 是 一 个 非 负 的 权重 函数 ,那么 从 式 (6.2) 中 可 
以 容易 证 明 最 小 化 积分 均 方 误差 的 最 优 平滑 参数 应 该 是 h,~~n ““*”(s= 
1,…,q)。 然 而 ,对 最 优 的 h, 不 存在 一 个 闭 式 表达 式 。 尽 管 我 们 可 以 计算 插入 
的 ,至 少 可 以 说 它 在 计算 上 是 有 挑战 的 。Li 和 Racine(2007 ) 建 议 使 用 为 估计 
条 件 PDF 设计 的 最 小 二 乘 交 错 鉴 定 法 来 选择 窗 宽 。 在 第 5 章 我 们 已 经 证 明了 
估计 条 件 概率 密度 函数 时 ,最 优 平滑 得 出 的 窗 宽 形式 为 h. ~ h, ~nt 
有 s=1,…,g)。 注 意 指数 为 -1/(5 +4) ,因为 我 们 假定 了 为 一 个 连续 变量 ， 
(y,xz) 的 维 数 是 9+1。 我 们 可 以 将 条 件 最 小 二 乘 交 错 鉴 定 平滑 参数 乘 以 因子 
n” 得 到 关于 条 件 累 积分 布 函数 最 优 平 滑 参 数 的 准确 的 最 优 速度 。 
Li 和 Racine 所 做 的 模拟 结果 表明 这 种 方法 表现 很 好 。 


6.2 平滑 因 变量 情况 下 估计 具有 连续 协 变量 的 条 件 累积 
分 布 因数 


在 这 一 节 我 们 讨论 另 一 个 也 可 以 平滑 因 变 量 了 的 估计 量 , 正 如 我 们 在 1.4 
节 中 提出 的 非 条 件 累 积分 布 函数 的 估计 量 那 样 。 也 就 是 说 ,我 们 可 以 估计 
F(ylx) 为 





Y, 





-1 “ e ai 
) n > cl h, )W.(X,,x) 
(yl x) — y (6.3) 


其 中 G(: ) 是 由 研究 者 选 出 的 核 累积 分 布 函数 , 即 标准 正 态 累 积分 布 函 数 , 目 ho 
是 与 有关 的 平滑 参数 。 

除了 假定 6. 1 ,我 们 也 需要 假定 当 n— o BF, h — 0, E X M(y,x) = 
[PCylz) -— F(ylz)]ñ(z),3BZ F(ylx) - F(ylx) = 用 (y,x)/ 及 (x)。 我 们 有 以 
下 结论 。 

定理 6.2 定义 Bo(y,z) =(1/2)k,Fwo(ylx) ,并 令 O(y,x) =K Fo (ylx)/p(x)。 
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e 局 z s R se & ms °: 


E S, MB, (2) 与 我 们 在 定理 6. 1 中 的 定义 是 一 样 的 。 令 1 下 12 =h + > h, 
w" > h; ,那么 ,在 给 出 和 定理 6. 1 相似 的 条 件 下 ,可 得 


(i) E[M(y,z)] = (x) > hsB,(y,x) +o(l h 1°), 
(ii) var[M(y,x)] = (nH,) p(x) EE, - h C,Q(y,x)1+ o((nH,)'), 
Jü H, = hih, C, = 2|6(v) wv) vdr. 


(iii) 如 果 (nh,…h,)"” > h; = o(1) ,那么 


(nh,:=h,)'? [FC] z) - F(yl z) - YB.) ] =n(0,5,.) 


定理 6.2 的 证 明 在 6.9 节 给 出 。 
定理 6. 2 意味 着 
MSE[F(y| x)] 1 = [5r] E r A OAS, 
(6.4) 
我 们 可 以 选择 平滑 参数 来 最 小 化 F(y1x) 的 一 个 加 权 积 分 均 方 误差 
( WIMSE ) 的 首 项 ,WIMSE 由 下 式 给 定 : 


WIMSE =[{ | Y hB, (yx) ] 


š [Fu — hC, NC y, x) ] 


"i pasmi }s(y,x)dydx (6.5) 


q 
其 中 [axay = > [ax'dy, 
xd e D 


如 果 人 们 使 用 窗 宽 选 择 的 插入 法 ,那么 要 首先 估计 B,(y,x), Sa 和 
人 2(y,x) ,这 要 求人 们 选择 初始 的 “试验 "平滑 参数 。 然 而 ,计算 一 个 g+1 维 的 
积分 的 精确 数值 是 非常 困难 的 。 但 是 ,确实 存在 开发 得 很 好 的 自动 化 数据 驱动 
法 ,能够 选择 出 平滑 参数 来 估计 条 件 累积 分 布 函数 。 在 缺乏 理想 的 估计 条 件 累 
积分 布 函 数 的 数据 驱动 法 的 情形 下 ,我 们 再 次 建议 使 用 已 经 提出 的 用 于 条 件 累 
积分 布 函 数 估计 的 交错 鉴定 法 。 正 如 在 第 5 章 关 于 条 件 概 率 分 布 函 数 所 讨论 
的 ,最 优 平 滑 给 出 和 ~h, — n (所 有 =1,…,9)。 下 面 我 们 证 明 对 条 件 
累积 分 布 函 数 最 优 平滑 要 求 h, =o(h,)(s=1l,--,q) ,以 及 太一 m "t, 为 了 
清楚 说 明 ,我 们 首先 考虑 9 =1 的 情形 ,然后 ,再 转向 一 般 情 形 。 

考虑 4 =1 的 情形 。 由 式 (6.4) 可 知 加 权 均 方 误差 为 
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WIMSE = [MsELFCy! x) ]s(y,x) dydx 
= Aha + A, hsh; + Ahi 
+ A,(nh,) ` — A,h,(nh,)™ + O(n,) (6.6) 
HEP n, =hi +ho + (hi +h,)(nh,) 一 , 且 4 是 一 些 常数 ,分 别 为 : 


A, = B...) 2s(y,z) dyda 
A; = 2[B,(y,x)B,(y,x)s(y,x)dydx 


A, = JB, (ys)°s(7,) dyds 


A, = X,.s(y,x)dydx 
A, = ((y,x)s(y,x)dydx 
所 有 的 4; 除了 4, 均 为 正 , 但 是 4, 可 以 为 正 、 负 或 0。 





aati e z SE a 4Ash, + 2A,h,hi - A,(nh,)™ + (s.o.) =0 (6.7) 
0 

MST = 24 ,12 FAM — A (nhi) + (s.0.) =0 — (6.8) 
' 


其 中 (s.o. ) 表 示 更 低 阶 项 。 

从 式 (6.7) 和 式 (6.8) 中 ,我 们 能 容易 看 出 h, 和, 不 能 有 同样 的 阶 数 。 并 
且 , 可 以 证 明 h, UEA HE h, 更 低 的 阶 。 假定 h,=con“ 且 hh, =c n f, WARN 
必须 有 a >B。 然 后 ,由 式 (6. 8 ) 我 们 得 到 B=1/5, 旦 将 它 代 入 式 (6.7) 得 到 a = 
2/5。 于 是 ,最 优 平 滑 要 求 h ~n H h ~n, O 

对 于 g>1 的 一 般 情形 ,由 于 对 称 性 ,所 有 的 h, 应 该 具有 相同 的 阶 数 , 即 
h, ~n《(s=1,…,g) 以 及 h,。 ~~n“。 那 么 容易 证 明 B=1/(4+g) 和 a@=2/(4+ 
9) 。 于 是 ,最 优 的 太一 ne (s51, pg) E h = nes, 

到 目前 为 止 ,我 们 集中 关注 F(y1x) 的 一 个 局 部 常数 估计 量 。 我 们 也 可 以 
用 局 部 线性 法 估计 F(ylx)。 正 如 我 们 先前 讨论 的 ,F(ylx) =E[1(Y,<y)1X,=x] 
EE X, =x 条件 下 1(Y.<y) 的 条 件 均值 函数 。 于 是 ,我 们 也 可 以 使 用 局 部 线性 
方法 来 估计 这 个 条 件 均值 函数 , 即 通 过 1(Y,<y) 对 (1,(X,=x)') 回 归并 使 用 核 
权重 。 最 终 的 截 距 估计 量 将 会 是 F(y1x) 的 局 部 线性 估计 量 。 可 以 证 明 , 这 个 
估计 量 的 偏 误 首 项 为 


O ”人们 也 可 以 尝试 使 用 a=B, 根 据 式 (6.8) 这 将 导致 B=1/5 ,根据 式 (6.7) 这 将 导致 B=1/4, 存 在 
不 一 致 。 类 似 地 ,假定 a <B 也 导致 不 一 致 。 因此 ,我 们 必须 有 a > B. 
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站 G 六 By s X s k 


(11/2) S RF (y! x) (6.9) 


而 方差 首 项 为 X... ,这 与 定理 6. 1 给 出 的 局 部 常数 估计 量 的 结果 是 一 样 的 。 然 
而 ,正如 Hall, Wolff 和 Yao( 1999 ) 指 出 的 ,这 个 局 部 线性 估计 量具 有 两 个 不 良 的 
HER: (i) 它 可 能 对 不 是 单调 的 ,(ii) 它 可 能 不 是 被 局 限 在 [0,1]j 内 取 值 。 

受 经 验 似 然 法 的 启发 ,Hall 等 (1999) 和 Cai(2002) 引入 一 个 加 权 局 部 常数 
估计 量 去 克服 因 使 用 局 部 线性 法 而 产生 的 问题 。 一 个 加 权 局 部 常数 估计 量 为 


> p.(z)K,(X,,z)1(Y, < y) 
F(yl x) = 21 (6.10) 
> pi(x)K,(X,,x) 


其 中 p(x) (i=1,…,n) 表 示 数 据 X... A, 的 加 权 函 数 且 设计 点 * 满足 性 质 
p:(x) 20, > p.(z) = 1 ,以 及 


> x — x)p;(x)K,(X;,x) =0 (6.11) 


条 件 (6. 11) 是 由 局 部 线性 估计 量 产生 的 ,这 确保 了 估计 偏差 在 边界 和 内 部 区 域 
有 相同 的 阶 数 。 这 也 可 以 在 Taylor 扩展 式 中 减 小 偏 误 首 项 的 数值 。 然 而 ,满足 
这 些 条 件 的 p;(x) 不 是 唯一 确定 的 (因为 p,(x) 有 nn 个 参数 ,只 有 g+2 个 约束 条 


件 ) 。Hall 等 和 Cai 建议 通过 在 这 些 约束 条 件 下 最 大 化 || p.(*) 选择 p.(*) 。 这 
引出 了 下 面 的 最 优化 问题 


I 
maz >. np,(x), 


s.t. 式 (6.11), p,(x) > 0, = < = 1 (6.12) 
A y 为 与 条 件 (6. 11) 相 关 的 拉 格 朗 日 乘 数 ,那么 (见习 题 6.5 的 提示 ) 
T ET. (6.13) 


n[1 + y( X, — x)K,(X,,x) | 
其 中 
S= Q max 2 [1 A a)] (6.14) 


式 (6. 14) 没 有 一 个 闭 式 解 。Cai(2002 ) 建 议 使 用 Newton-Raphson 方法 找到 
基于 式 (6. 14) A y 的 根 ( 解 )。 在 类 似 于 定理 6. 2 给 出 的 那些 正则 性 条 件 下 ， 
Cai 构造 了 FR(ylx) 的 渐 近 分 布 为 
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(nh)? [FCI #) -FCI x) - Y RB, Ca) | SNO, Sp) (6.15) 


其 中 FC(ylx)B(y,x) =(1/2)gk,F,(ylxz), 

式 (6.15) 证 明 F(ylx) 与 F(ylx) 的 局 部 线性 核 估计 量具 有 相同 的 (一 阶 ) 
渐 近 分 布 。 它 还 具有 额外 的 优势 , 它 对 了 是 单调 的 且 它 只 在 [0,1] 取 值 。 一 个 
缺点 是 它 的 计算 需要 数值 最 优化 程序 。 

当下 有 一 个 有 界 的 支撑 时 , Cai(2002 ) 进一步 证 明 在 的 支撑 的 边界 上 


PCy JR ( > A ) 和 方差 有 同样 的 阶 数 , 即 这 个 方法 避免 了 在 有 界 支 摊 


情况 下 的 边界 效应 。 

我 们 观察 到 上 面 的 加 权 局 部 常数 估计 量具 有 类 似 于 局 部 线性 估计 量 的 性 
质 。 上 面 提 到 一 个 缺点 是 其 计算 要 求 非 线性 优化 程序 ,而 局 部 常数 和 局 部 线性 
估计 量 拥 有 闭 式 解 且 容易 被 计算 出 来 。 使 用 局 部 线性 估计 量 产生 的 问题 是 局 
部 加 权 函 数 可 能 取 负 值 ,因此 F(y1x) 的 最 终 估计 量 可 能 取 单 位 区 间 [0,1] 之 外 
的 值 。Hansen(2004) 提 出 了 一 个 修正 的 (ylx) 的 局 部 线性 估计 量 ,在 那里 他 
将 其 中 的 负 值 权重 (如 果 存 在 的 话 ) 用 0 代替 。 这 种 修正 是 可 以 在 渐 近 意义 上 
忽略 不 计 的 ,但 是 它 限 制 F(ylx) 的 最 终局 部 线性 估计 量 取 值 在 [0,1] 区 间 , 从 
而 得 出 一 个 有 效 的 条 件 累 积分 布 函 数 估 计量 。Hansen 证 明 他 的 修正 的 局 部 线 
性 估计 量 的 渐 近 分 布 与 式 (6. 15 ) 得 出 的 (ylx) 是 一 阶 等 价 的 。 

条 件 累 积分 布 函数 的 非 参 数 估计 在 经 济 学 中 存在 广泛 的 潜在 应 用 。 比 如 
说 ,这 些 估 计量 可 以 用 于 识别 和 估计 非 可 加 和 非 可 分 函数 ,参见 Matzkin(2003 ) 
以 及 Altonji 和 Matzkin(2005 ) 。 

到 目前 为 止 ,我 们 关注 的 是 条 件 累 积分 布 函 数 的 非 参数 估计 。 当 协 变量 的 
维 数 很 高 时 , 维 数 诅 咒 可 能 阻碍 准确 的 非 参数 估计 。Hall 和 Yao(2005 ) 提出 使 
用 降 维 法 去 双 近 条 件 概 率 密度 函数 。 具 体 地 说 ,他 们 使 用 F(YIX'B) 去 允 近 真 
实 的 条 件 累 积分 布 函数 FF(YIX) ,这 里 是 g 维 的 且 B 是 gq x 1 维 的 未 知 参 数 向 
量 。 他 们 的 估计 方法 在 思想 上 是 与 单 指 数 模 型 法 类 似 的 ( 见 第 8 章 )。 因 为 X'B 
是 一 个 标量 ( 即 一 元 变量 ) , 它 只 包含 一 维 的 非 参 数 估计 ,因此 避免 了 维 数 诅咒 
的 批评 。 


6.3 条 件 分 位 数 函 数 的 非 参数 估计 


分 位 数 回归 方法 已 经 被 研究 者 广泛 地 应 用 。 对 于 一 系列 参数 模型 的 全 面 
分 析 ,我 们 推荐 读者 参考 Koenker(2005 ) 。 这 种 方法 之 所 以 流行 的 一 个 原因 是 
它们 更 加 充分 地 描述 了 一 个 感 兴趣 的 变量 的 条 件 累 积分 布 函 数 的 特征 ,比较 而 
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言 回归 模型 仅仅 给 出 了 条 件 均 值 。 
一 个 累积 分 布 函 数 F(…) 的 无 条 件 第 a 个 分 位 数 被 定义 为 
q, = inf|y:F(y) Z a| = F-' (a) (6.16) 
其 中 ae (0,1)。 


例如 , 令 Y~N(0,1) 且 令 F(:) 为 相关 的 标准 正 态 累积 分 布 函 数 。 那 么 
qos =5, 由 于 F(0) =0.5 H F(0 -#) <0.5 对 任意 a>0 成 立 。 为 了 得 出 分 位 
数 如 qos ,我 们 利用 逆 累 积分 布 函 数 。 也 就 是 说 ,因为 doos = 下 (0. 95) H 
F( qoos) =P(P (0.95)) =0.95, 我 们 得 到 doss =1.624, 因 为 P[N(0,1)< 
1.645] = F(1. 645) =0. 95。 

一 般 地 ,如 果 令 于 表示 一 个 累积 分 布 函 数 为 F(:) 的 随机 变量 ,那么 找到 q, 
的 方法 包括 应 用 到 q. =F (Ca) 以 得 到 

F(q) =P[X<q,] =a 
即 应 用 下 于 式 (6. 16) 。 

再 次 通过 例子 ,假定 站 表示 某 一 年 的 家 庭 收 入 。 那 么 go ,是 这 样 一 种 收入 
水 平 , 即 所 有 家 庭 中 ,有 25% 的 家 庭 收 入 是 低 于 这 个 值 的 。 

通常 ,我 们 感 兴趣 的 是 条 件 分 位 数 而 不 是 非 条 件 分 位 数 。 条 件 第 a 个 分 位 
数 定义 为 (ae (0,1) ) 

q.(x) = inf|y:F(yl x) > a| = F'(al x) CO IT) 
例如 ,假定 表示 年 龄 而 了 表示 个 人 收入 。 那 么 qo (x =30) 所 指 的 收入 
水 平 的 含义 是 :25% 的 30 岁 的 人 的 收入 水 平 是 低 于 这 个 值 的 。 

在 实践 中 ,我 们 可 以 通过 转换 估计 出 的 条 件 累积 分 布 函数 率 估计 条 件 分 位 
BRR g,(x) 。 分 别 利 用 对 一 个 平滑 函数 的 估计 和 一 个 关于 了 的 示 性 函数 ,我 
们 可 得 

q(x) = inf|y:P(yl x) >a} = 天 (alx) (6.18) 
d (x) = infl|y:F(yl x) >a} = F'(eal z) (6.19) 

HA F(ylz)(F(ylz))f F O 和 1 EIF Y E BJ q. (z) (q.(x)) 
总 是 存在 的 。 因 此 ,一 旦 人 们 得 到 (ylx)(P(ylxz)), 利 用 式 (6. 18) 和 式 
(6. 19) 计 算 9.(x) (ga Ca) ) 就 是 轻而易举 的 。 

我 们 解释 式 (6. 18 ) 的 意义 是 ,对 于 a 和 zx 一 个 给 定 的 值 ,我 们 通过 选择 q, 
最 小 化 以 下 目标 郴 数 解 出 q。(x) 

q,(x) = arg min | a — P (q! x) | (6.20) 


也 就 是 说 ,最 小 化 式 (6. 20) 的 4 的 结果 是 ga (a) o 
我 们 假定 (ylx) 有 一 个 条 件 概率 密度 函数 /(y1lx) ,f(ylx) 在 x 上 是 连续 
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H, H. /(q.(x)l|x) >0。 注 意 因为 Fo(ylx) =9F(ylx)/0y, 有 f(ylx) 二 Fo(y1x)。 
下 面 的 两 个 定理 给 出 了 5。(x*) 和 94e(x) 的 渐 近 分 布 。 
定理 6.3 对 于 s=1,…,g, 定 义 
B.(y,x) 
Ba) = gx) a) 
其 中 B,(y,x) 是 在 定理 6. 1 中 被 定义 的 。 然 后 ,与 在 定理 6.1 中 给 出 的 类 似 条 
件 下 ,我 们 有 


(ni [各 (xz) -tx) - X 2B, (z) | < NOV (sy) 


其 中 V(x) =a(l -a)r'/[F (q.(z)l|z)u(q,(z=))], 
定理 6.4 ENX B. (=)=Fj(ylx)/u(x“)B B .,(y,xz),s=1,--,q 与 定理 
6.3 是 一 样 的 。 与 在 定理 6.2 中 给 出 的 类 似 条 件 下 ,我 们 有 


(nhh) [4 (z) - q,(x) - 5 hB, (2)] S N(0,V,(2)) 


JerBB.,(s=1,---,q) H. V(x) 与 定理 6.3 中 的 定义 是 一 致 的 。 
定理 6.3 的 证 明 留 作 习 题 ,定理 6.4 的 证 明 在 6.9. 1 节 给 出 。 
也 可 以 通过 转换 式 (6. 10) 中 给 出 的 (ylx) 的 加 权 局 部 常数 估计 量 来 估计 
q, (x) ,Bh 
q.(x) = infly: 天 (yl x) > a} = F''(al x) (6.21) 
Cai( 2002 ) 证 明 


(nhi--h.)'|4.(z) - q.Gz) - >` WB, (g(x) ,x) /x) | 


SN(0,V,(x)) (6.22) 
jth B.( 。, . ) 是 在 式 (6.15) 中 定义 的 且 V. (x) 与 在 定理 6.4 中 的 定义 相同 。 


6.4 ”检验 函数 方法 


Ga (x) 的 另 一 个 流行 的 估计 量 可 以 使 用 所 谓 的 检验 郴 数 ( check function ) HÈ 
导出 来 ,参见 Chaudhuri( 1991 ) , Chaudhuri, Doksum 和 Samarov ( 1997 ) , Jones 和 
Hall(1990) , Yu 和 Jones ( 1997 , 1998 ) , Honda ( 2000 ) , Cheng 和 Peng ( 2002 ) , 
Whang(2006) ,以 及 其 中 的 参考 文献 。 检 验 函 数 的 命名 来 自 潜在 目标 函数 的 形 
Ho WEE L, 规范 目标 函数 ,如 基于 最 小 二 乘法 的 那些 ,得 出 的 是 U 形 目标 函 
数 ,而 着 规范 目标 函数 ,如 那些 基于 最 小 绝对 差 的 那些 ,得 出 的 是 V 形 或 者 “ 检 
验 形 " 目标 函数 。 
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流行 的 参数 线性 分 位 数 回归 模型 (Koenker 和 Bassett( 1978) ) 为 以 下 形式 
; = X: B + u, (6.23) 
从 式 (6. 23 ) 中 可 得 q. (Y. 1 X.) = 成 B+do(u1X)。 我 们 不 能 分 开 识 别 B 和 
q.(u,lX,) ,正如 不 能 在 最 小 二 乘 回 归 模 型 中 分 开 识 别 截 距 和 E(w,) 那 样 ( 即 此 
处 我 们 强加 E(u,) =0) ,我 们 可 以 将 这 个 模型 重 写 为 
Y, = gq(YV| X,) + x, , = X; B, + v, , (6.24) 
其 中 ms =u -q.(u,lX,), EX q.(v. lX.) =0。 基 本 上 ,我们 强加 了 误差 过 程 
的 条 件 第 a 个 分 位 数 等 于 0 这 个 条 件 。 
众所周知 ,人 们 可 以 通过 最 小 化 下 面 的 目标 函数 估计 式 (6.24) 中 的 B。: 


Ê. = arg min > p,(Y, - XB) (6.25) 

其 中 p,(z) =z[a-1(z<0)] 是 检验 函数 ,参见 Koenker 和 Bassett (1978), |F] 

样 ,参见 He 和 Zhu ( 2003 ) 对 参数 分 位 数 回归 模型 的 缺乏 拟 合 检验 (lack-of-fit 
test) 。 可 以 证 明 式 (6. 25 ) 等 价 于 

Ê =a minfa SIY- Xp l+ (1 -a) 2! Y, - X'pI } (6.26) 


v = WB 
其 中 我 们 使 用 了 当 z<0 时 ,有 -z=1zl 的 结论 。 
Koenker 和 Bassett(1978 ) 证 明 


/n(É, - B.) S NCO, [E(X.X:)] 7!) 
其 中 us. sall -a)fa (0), B faa) E v, 的 概率 密度 函数 。 
这 个 检验 函数 方法 也 可 以 用 于 非 参 数 分 位 数 回归 模型 的 估计 。 我 们 使 用 
一 个 局 部 常数 模型 (或 者 ,我 们 可 以 选择 使 用 一 个 局 部 线性 模型 ) , 且 我 们 选择 
a 以 最 小 化 下 面 的 目标 函数 : 


min > p,(Y, - a)W,(X,,z) (6.27) 


HP p (v) =vz[a-1lz<0)]。 令 Ye(x) 表 示 最 小 化 式 (6.27) 的 a 值 ,可 以 证 
明 gq,.(x) 是 q(x) 的 一 个 一 致 估计 量 。 

q... (x ) 的 均 方 误差 首 项 可 以 在 Jones 和 Hall(1990) 以 及 Yu 和 Jones 
(1997) 中 找到 。g。 (x) 的 偏 误 首 项 和 方差 首 项 与 在 定理 6.3 中 给 出 的 ga (ax) 
是 完全 相同 的 。 因 此 ,4 (x) 与 定理 6. 3 中 给 出 的 4,(x) 具 有 相同 的 渐 近 
分 布 。 

也 可 以 使 用 一 个 局 部 线性 模型 通过 用 下 面 的 目标 函数 来 替换 式 (6. 27 ) : 


min > p. (Y, - a - (X, - z) b) W, (X,,x) (6.28) 
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= 


其 中 最 小 化 目标 函数 的 a 是 q. (x) 的 局 部 线性 估计 量 , 且 4b 估计 了 q. (x) 的 
导数 。 

S fanl A) ON q (x) BJ BE e h TF BR q. (x) BJ MSE 首 项 可 以 在 Fan, Hu 
和 Truong( 1994) 以 及 Yu 和 Jones( 1997) 中 找到 。 方 差 首 项 与 局 部 常数 估计 量 
的 是 一 样 的 (因此 与 定理 6.3 给 出 的 相同 ) ,而 偏 误 首 项 为 


pi. Ym T“ Y hga (x) (6.29) 


其 中 q。。(x) = 89a (2) Zx? 0 


6.5 ”离散 和 连续 协 变量 混 合 的 条 件 累 积分 布 函数 和 分 位 
数 估计 


当 匀 为 混合 离散 和 连续 协 变量 的 向 量 ,我 们 需要 用 一 个 适合 混合 数据 型 的 
194 ”广义 乘积 核 取 代 核 函数 。 我 们 首先 讨论 在 没有 平滑 相关 变量 了 的 情况 下 估计 
条 件 累 积分 布 函数 。 我 们 估计 Flax) 


n` 3 1( Y. < y)K (X,,x) 


F(yl x) = —— (6.30) 


其 中 上 (xz) =n 'K (Xx) (z) fh iF ht, 
K (X,,x) = W,(X:,z')L, (X; sx ) 


WT ,2) = [TA wX, = x,)/h,) 


LCI 6) = JUKE, atA.) 
IXE, xA) = TOX = x!) +A 1X # x°) 
如 果 我 们 选择 平滑 的 因 变 量 了, 我们 可 得 另 一 个 RCylx) 的 估计 量 为 
aj “ ' ai Y, £ 
n D (s,s) 


P(yl x) = (6.31) 


L(x) 
其 中 GC- ) 是 一 个 累积 分 布 函 数 , 如 标准 正 态 累 积分 布 函 数 , 且 ho 是 与 了 相关 
的 平滑 参数 。 
EN Myx) =[F(ylx) — F(ylz) ]ñ(x)3Ë M(y,x) =[F(ylx) — F(ylz)] 
Alx) 。 下 面 的 两 个 定理 分 别 给 出 了 Fyle) A Clx) AE 
定理 6.5 在 与 定理 6. 1 给 出 的 相似 的 正则 性 条 件 下 ,但 是 关于 x° 的 可 微 
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< D be] lgd x. w 


性 条 件 改变 了 (参见 Li 和 Racine(2008) ) ,可 得 
(i) $ q, = hl|° + (nhh ) 一 1 那么 


MSE[ 府 (y,z)] =Í Ð WB, (yl x) + Y ABa (yI a) Y} 


+ (yl x) (nhh) + 0O(m,) 


其 中 
Bi,(y,x) = (1⁄2)x,[2F,(yl z)u,(x) +u(xz)F,(yl x)] 


B (y,<x) = (s<) ' F 1,2,2 )U[F(y1 s',Z)u(s°,z22) — F(y!| z)g(s)] 
riesi 


其 中 1.( ,xz ) 在 式 (4.24) 中 定义 。 
(ü) $ Z a, = F(yl x)[1 - F(yl| x)]/Zu(x),BE2Z 


(mh )'” [Feyi x) — F(yl x) - S hB, (y x) 
d d 
- Ð A,B, (y1 x) | > NO, 3, 


定理 6.6 定义 | A1 = F A, Bolyl x) = (1/2)k,Fol(yl x),Q(y,x) = 


K'F,(yl x)/u(x), HS X.,,,B, (y2) fl B,(y,x) 与 定理 6.5 中 的 定义 是 一 样 
的 ,那么 ,在 Li 和 Racine(2008) 给 出 的 假定 下 ,可 得 


MSE[M(y,z)] =A(z) | Y WB, (yl x) + SAB,(y! x) } 


POVUS, - h,()(y,x)1 
nh, =h 


Hp m, = 1 + IA 12 +(nh,---h.) CCIR? + 1A1) H. 


(nh, =-h,)'? | PO x) — F(yl x) - > h.B,,(y,s) 一 > A.B, (y! x) | 


+ 0(m,.) 


q 


SN [o,x,.) 
定理 6.5 和 定理 6.6 的 证 明 在 6. 9. 2 节 给 出 。 
如 上 所 述 ,为 了 得 到 一 个 分 位 数 估计 量 ,转换 FO): 
a(x) = F'(al x) 

在 实践 中 我 们 通过 下 式 计 算 q. (x) 

g (x) = arg min | a — F(q | x) | 
4.(x*) 的 渐 近 分 布 在 下 一 个 定理 中 给 出 。 
定理 6.7 定义 B.. (x) = B.(q. (x) 1x)/(gq。(x)1x), 其 中 


195 


153 


196 


197 


154 


非 参 数 计量 经 济 学 


X 3 z za š 


x= 
器 
ie 


(y = qa(2))B, (y1 2) = | X RB, CI x) + X AB, (y x) | ë ÊC lx) 048 


误 首 项 。 那 么 在 定理 6.6 使 用 的 相同 的 条 件 下 ,可 得 

(i) 9.(x) 一 qs(x) 依 概率 收敛 。 

(ü) (mh )'2[4, (a) -g(x) -B(x)]N(0,V.(x)) 依 分 布 收敛 ,其 
中 V(x) =a(l -a)K/[f (g(x) lx)u(g. (x))]=V(g. (x) 1x)/f (gq, (x) |x) 
(因为 a=F(g,(x)1x))。 

定理 6.7 的 证 明 与 定理 6.4 的 证 明 是 类 似 的 ,因此 在 此 省 略 。 

在 习题 6. 4 中 ,读者 被 要 求证 明 估计 广 (y1x) 的 最 优 平滑 参数 应 该 满足 
hn lA 
憾 的 是 ,由 于 我 们 知识 所 限 , 当 估计 条 件 累 积分 布 函 数 时 ,在 加 权 积 分 均 方 误差 
最 小 的 意义 上 ,不 存在 一 个 自发 的 数据 驱动 方法 可 以 选择 最 优 的 窗 宽 。 给 定 条 
件 累 积分 布 函数 和 条 件 概率 密度 函数 之 间 的 密切 关系 ,当选 择 窗 宽 且 利用 它们 
估计 条 件 累 积分 布 函数 玉 (y1xz) 和 条 件 分 位 数 函 数 g.(x) 时 ,Li 和 Racine 
(2008 ) 推荐 使 用 基于 条 件 概 率 密度 函数 估计 的 最 小 二 乘 交 错 鉴定 法 。 

令 有 入 ,表示 通过 最 小 化 概率 分 布 函 数 交 错 鉴定 函数 选择 的 h, SFU A, 值 
( 见 第 5 章 )。 回 忆 在 第 5 章 我 们 证 明 最 优 窗 宽 阶 数 是 下 ~nt (s =0,1， 
eq) À, mn EO (s =1,…,r) (假定 了 为 一 个 连续 变量 ) 。 为 了 得 到 对 户 (ylx) 
有 正确 的 最 优 速度 的 窗 宽 ,Li 和 Racine ( 2008 ) 建议 使 用 Ñ, = hon™™ 255 , h, = 


o Ea RERE a =À, na 454 (s =1 ss: F a 
对 于 上 面 的 窗 宽 h, h, A, ,定理 6.6 和 定理 6.7 成 立 。 


6.6 ”一 个 小 的 索 特 卡 洛 模拟 研究 


依据 Li 和 Racine(2008 ) ,我 们 简要 地 研究 在 式 (6. 18 ) 和 式 (6. 19 ) 中 定义 

的 条 件 分 位 数 估 计量 的 有 限 样本 表现 。 我 们 考虑 的 DCP 为 

Y, = Ba +BXs + BX + B.sin( X6) +e, 
Hep X: 服从 [ -2=,2z] E 00325] yd, X4 A 2 都 是 二 项 式 (离散 单元 的 总 量 
E c=4), H. e; ~N(0,0°), JẸ} o =0.50,n =100, 

我 们 考虑 在 式 (6. 18) 中 给 出 的 估计 量 , 它 使 用 一 个 示 性 函数 处 理 Y, 即 
1(y- 关 =0) ,并 考虑 在 式 (6. 19) 中 给 出 的 估计 量 , 它 使 用 平滑 函数 
G((y-Y,)/h,) ,其 中 6G(:) 是 高 斯 核 。 不 管 为 G( (y - Y,) Zh, ) WFE WJ p8 98 ZE 
样 , 当 ho 一 0 BF,G( (y - Y,) Zh, )—1(y =- 无 =0) ,因此 为 了 得 出 1(y -了 ,>0) 的 
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À B x z se s š$ # 8 


结果 我 们 简单 地 设置 h, =0( 选 择 一 个 足够 小 的 h.) 

我 们 做 了 1000 次 蒙特 卡 洛 试验 ,每 次 计算 当 a =0. 50 时 的 分 位 数 估 计量 
的 均 方 误差 。 我 们 报告 这 1 000 次 试验 中 的 相关 均 方 误差 的 中 位 数 ,并 研究 基 
于 一 系列 窗 宽 选 择 量 的 非 平滑 和 平滑 分 位 数 法 的 相应 表现 。 结 果 概 括 到 在 表 
6.1 中 ,其 中 小 于 1 的 数值 表明 了 平滑 分 位 数 估计 量 (6. 19) 的 较 优 表现 。 


表 6.1 非 平 滑 和 平滑 分 位 数 估 计量 的 均 方 误差 表现 


h. (AtA a) h, =h MSE 
1. 060,n `! 0 示人 性 0. 49 
1.06o mn "° 0 1.06o um `! 0.41 
1. 060 ,n~'“ LSCV 1. 060 ,n `! 0. 33 
LSCV LSCV LSCV 0. 25 


从 表 6. 1 中 我 们 观察 到 ,首先 ,通过 用 一 个 特别 公式 h, =1.06o,m KF 
滑 了 ,与 使 用 一 个 7 的 非 平滑 的 示 性 函数 得 到 的 估计 量 相 比 , 均 方 误差 减 小 了 
20% 。 其 次 ,通过 最 小 二 乘 交错 鉴定 法 平滑 离散 协 变量 使 均 方 误 差 减 小 了 
20% 。 最 后 ,通过 最 小 二 乘 交 错 监 定 法 (不 是 使 用 一 个 特别 公式 ) 选 择 h, 和 h, 
也 使 得 均 方 误差 进一步 减 小 了 25%., 5 h, 的 特别 选择 相 比 ,或 者 与 因 变量 和 
离散 协 变量 的 示 性 函数 相 比 ,使 用 最 小 二 乘 交 错 鉴 定 法 的 均 方 误差 减 小 了 一 
半 。 注 意 在 上 面 的 试验 中 ,所 有 的 协 变量 都 是 相关 的 。 在 实践 中 ,我 们 经 常 碰 
到 的 情况 是 一 些 协 变量 实际 上 是 不 相关 的 ( 即 独立 于 因 变 量 ) ,在 这 种 情况 下 ， 
使 用 最 小 二 乘 交 错 鉴定 法 得 到 的 效率 甚至 会 更 大 ,因为 该 方法 可 以 自发 地 平滑 
掉 非 相关 协 变量 。 

具有 相关 数据 的 非 参 数 分 位 数 回 归 在 Cai (2002) 中 有 讨论 。 也 可 参见 
Koenker 和 Xiao( 2002) ,他 们 讨论 了 关于 分 位 数 回归 过 程 的 推断 。 


6.7 风险 函数 的 非 参 数 估计 


把 上 面 讨论 的 条 件 累积 分 布 函数 估计 的 结论 和 第 5 章 讨 论 的 条 件 概率 密 
度 函 数 估 计量 结合 ,可 以 容易 地 得 到 风险 函数 的 非 参 数 估 计量 。 我 们 首先 给 出 
一 个 风险 函数 的 正式 定义 。 

定义 6.1 令 了 表示 一 个 随机 变量 ,代表 从 某 种 状态 退出 的 时 间 ( 如 不 再 失 
业 ) 。 一 个 人 在 时 间 t 之 前 属于 一 个 状态 ,他 在 上 后 的 dr 这 样 一 个 短 的 时 间 长 


度 区 间 内 离开 原状 态 的 概率 是 P(tsTs<t+dtlT=t), W pA% (hazard func- 


tion ) 被 定义 为 
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5 8 a z x s i x y 
h(t) _ lim P STS! + dl T = t) 
di—,0 dt 


即 瞬时 退出 率 。 

粗略 地 讲 ,风险 函数 可 以 理解 为 h(t) dt 是 在 1 后 的 一 个 短 的 时 间 长 度 区 间 
dt 内 从 某 种 状态 离开 的 概率 ,条件 是 在 上 时 仍然 是 该 状态 。 

风险 函数 经 常用 于 描述 在 个 人 在 现在 (到 目前 这 周 为 止 ) 是 失业 的 条 件 下 ， 
在 一 个 紧 随 其 后 的 将 来 时 间 段 (如 下 周 ) 退 出 失业 状态 的 概率 ( 即 获得 一 份 工 
作 ) 。 它 们 也 经 常用 于 描述 一 个 病人 在 这 周 存活 的 条 件 下 ,在 下 个 时 期 (如 下 


周 ) 死 亡 的 概率 。 
可 以 证 明 风 险 函 数 可 以 被 写 为 (见习 题 6. 6 的 提示 ) 
h(t) = U. == oT = F,G4)], £ > 0 (6.32) 





因此 f(t) = h(n)exp (= [hv)do)。 


1 -F(t) 称 为 “生存 函数 ”。 这 是 因为 F(t) =P(T<1) 是 在 1 期 之 前 退出 
的 概率 ,所 以 1 -Fi(t) =P(T>1) 是 在 1 期 之 后 生存 的 概率 。 

在 风险 和 持久 分 析 中 人 们 普遍 使 用 的 参数 概率 密度 函数 是 Weibull 分 布 ， 
其 概率 密度 函数 为 

f,(t;a,b) = abt'exp( aí), í > 0,a,b > 0 
风险 函数 为 
h(x) = bat" 

因此 风险 函数 在 b>1 下 是 严格 递增 的 ,在 5<1 下 是 严格 递减 的 。 当 b=1 时 ， 
Weibull 分 布 简化 为 具有 常数 风险 的 指数 分 布 。Weibull 分 布 经 常 被 用 于 对 失业 
数据 建 模 。 

通常 关注 点 在 于 在 一 组 变量 x 的 结果 条 件 下 的 风险 率 。 条 件 风险 函数 定 
义 为 

Fhile) 

-FGI 

比如 说 ,T 可 能 是 癌症 患者 死亡 的 时 间 , 且 x 包含 治疗 的 类 型 和 个 人 的 特 
征 。 我 们 假定 x 包含 q 个 连续 变量 和 7 个 离散 变量 。h(tlx) 的 非 参 数 估 计 可 以 
简单 通过 用 它们 的 非 参 数 估计 量 代替 fi(tlx) 和 Fi(ilx) 而 取得 。 


kG y = EE (6. 34) 
1 - F,(t! x) 


h(t| x) = t > 0 (6.33) 


其 中 广 (tlz) 和 户 (tlxz) 分 别 在 第 5 章 和 6.5 节 中 定义 。 由 


第 6 章 条 件 累积 分 布 函数 与 分 位 数 估计 


m = < 2 x g. x z 


F(tl x) = F,(t!| x) + 0, [ FE + > À, + (nhh) ) 


容易 看 出 h(tlx) 的 渐 近 分 布 是 与 广 (tlx)va, ,相同 的 ,其 中 心 .=1-R(tlxz)。 
因此 ,根据 定理 6. 3 我 们 马上 得 知 


(nb 人 EC x) - h(t| x) -a,, | Y B, (1,2)h? + Y 8,1) | | 


S n(o, 9) (6.35) 


HiP B, (t,x) A Bp (t,x) EEM 5.3 中 定义 。 

在 上 面 的 讨论 中 我 们 假定 数据 不 是 截断 的 。 在 实际 应 用 中 ,比如 对 受到 特 
别 治疗 的 病人 的 跟踪 调查 ,一 个 病人 可 能 在 临终 前 没有 对 调查 做 出 回应 ,数据 
将 因此 是 截断 的 。 我 们 将 在 第 11 章 中 讨论 怎样 在 非 参 数 和 半 参 数 背 景 中 处 理 
截断 数据 。 

同样 , 当 我 们 在 高 维 背景 中 估计 一 个 风险 函数 时 , 维 数 诅 咒 可 能 阻止 了 准 
确 的 非 参数 估计 。 在 这 种 情形 下 ,人们 可 以 改 为 选择 估计 Horowitz( 1999 ) 所 建 
议 的 半 参 数 风险 模型 ,Horowitz 考虑 了 半 参 数 比 例 风险 模型 。 也 可 参考 Linton, 
Nielsen 和 van de Geer( 2003 ) 用 基于 核 方法 估计 可 乘 和 可 加 的 风险 模型 的 做 法 。 


6.8 应 用 


6.8.1 波士顿 房屋 数据 


我 们 考察 20 世纪 70 年 代 的 波士顿 房屋 数据 ,这 一 数据 已 被 许多 作者 广泛 
分 析 过 。 接 下 来 ,我 们 报告 在 Li 和 Racine(2007) 中 提出 的 应 用 。 这 个 数据 集 
包含 n=506 个 观测 数据 ,响应 变量 了 是 在 一 个 给 定 区 域内 房屋 价格 的 中 位 数 。 
根据 Chaudhuri 等 (1997 ‚p. 724) ,我 们 关注 三 个 重要 的 协 变量 :RM = 该 区 域 每 
个 房屋 的 平均 房间 数量 (用 最 接近 的 整数 表示 ) ,LSTAT = 该 区 域 低 收入 人 口 的 
百分比 ,DIS = 至 波士顿 五 个 就 业 中 心 的 加 权 距 离 。 一 个 有 趣 的 特征 是 数据 在 
50 000 美元 (20 年 代 房屋 价格 ) 处 是 右 截 断 的 ,这 使 其 十 分 适用 于 分 位 数 方法 。 

我 们 首先 打 乱 数据 并 创建 两 个 独立 的 样本 ,样本 容量 分 别 为 mw = 400 和 
n, =106。 然 后 ,我们 使 用 容量 为 n 的 估计 样本 拟 合 一 个 线性 参数 分 位 数 模 型 
和 非 参 数 分 位 数 模型 ,并 基于 容量 为 n, 的 独立 支持 数据 (hold-out data) 中 的 协 
变量 生成 了 的 预测 中 位 数 。 最 后 我 们 计算 均 方 预测 误差 (MSPE ) , 它 被 定义 为 


m 


MSPE = s= > CY, a q E A D 
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其 中 go ;(X;) 是 预测 中 位 数 , 由 参数 模型 或 非 参 数 模型 生成 ,Y, 是 支持 数据 集 对 
应 的 真实 值 。 为 了 防止 潜在 的 批评 , 即 我 们 的 结果 反映 了 一 个 不 具 代表 性 的 划 
分 数据 ,我 们 重复 这 个 过 程 100 次 ,每 次 计算 相对 MSPE( 即 参数 MSPE 除 以 非 
参数 MSPE ) 。 对 于 每 次 划分 ,我 们 采用 Hall 等 (2004 ) 的 方法 去 计算 数据 相关 
窗 宽 。 数 据 的 100 次 划分 的 相对 MSPE 中 位 数 是 1. 13( 下 四 分 位 数 =1.03 ,上 
四 分 位 数 =1. 20) ,表明 非 参数 方法 产生 了 优良 的 样本 外 分 位 数 估计 值 。 图 6. 1 
绘 出 了 对 于 数据 的 100 次 随机 划分 ,概括 了 这 些 结果 的 密度 估计 。 


3.0 


2.5 


f(MSPE) 


04 0.6 0.8 1.0 1.2 1.4 1.6 1.8 
相对 MSPE 


图 6.1 对 数据 的 100 次 随机 划分 得 到 的 相对 MSPE 的 密度 
注 : 值 > 1 表示 对 数据 的 一 个 给 定 随 机 划分 , 核 方法 有 更 好 的 样本 外 表现 (下 四 分 位 
数 =1.03 ,上 四 分 位 数 =1.20)。 


图 6. 1 显示 出 所 有 划分 样本 的 76% ( 即 图 中 坚 线 的 右边 ) 相对 效率 大 于 或 
等 于 1 ,在 100 次 划分 中 有 76 次 非 参 数 分 位 数 模 型 产生 比 参 数 分 位 数 模型 更 好 
的 房屋 价格 中 位 数 预测 。 给 定 小 样本 容量 和 存在 三 个 协 变量 的 事实 ,我们 感到 
这 是 一 个 有 效 的 非 参数 方法 的 应 用 。 当 然 ,我 们 并 不 认为 这 会 胜 过 一 个 近似 正 
确 的 参数 模型 。 更 确切 地 说 ,我 们 仅仅 希望 我 们 可 以 比 在 文献 中 能 够 找到 的 普 
通 参 数 设 定 做 得 更 好 。 


6. 8.2 青少年 的 生长 曲线 图 


生长 曲线 图 被 儿科 医师 和 父母 们 用 于 与 一 个 标准 范围 比较 孩子 的 生长 。 
身高 .体重 、 身 体质 量 指数 (BMI) 测 量 值 被 用 于 记录 按 月 年 龄 为 基础 的 孩子 的 
身高 和 体重 。 相 同性 别 年 龄 孩子 的 测量 值 与 标准 或 正常 的 范围 作 比 较 。 

生长 曲线 图 提供 早期 的 预警 ,提示 孩子 有 医学 问题 。 例 如 , 太 快 的 生长 可 
能 表明 脑 积 水 的 存在 (头骨 腔 中 有 液体 积聚 ) , 脑 瘤 或 者 其 他 原因 会 引起 巨头 畸 
形 ( 有 奇 大 的 头 , 它 与 脑 积 水 不 同 ,因为 没有 颅 内 压力 的 增加 ) ,然而 太 慢 的 生长 
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可 能 表明 存在 大 脑 畸 形 .早期 骨 颖 闭合 或 者 其 他 问题 。 体 重 、 身 高 或 两 者 发 育 
不 足 可 能 表明 成 长 失调 、 慢 性病 , 玻 忽 或 其 他 问题 。 

以 下 应 用 的 数据 来 自 美国 疾病 控制 预防 中 心 的 国家 卫生 预防 和 营养 检验 
调查 。 各 种 方法 被 用 于 建立 生长 曲线 ,结果 一 般 以 分 位 数 呈 现 出 来 。 例 如 , 美 
国 疾病 控制 预防 中 心 使 用 一 个 两 阶段 的 方法 。 在 第 一 阶段 ,经 验 百 分 位 数 被 不 
同 的 参数 和 非 参 数 方法 平滑 。 为 了 得 到 相应 的 百 分 位 数 和 z 得 分 ,平滑 后 的 百 
分 位 数 接着 在 第 二 阶段 被 修正 后 的 最 小 中 位 数 平方 估计 法 近似 估计 。 我 们 考 
察 式 (6. 19) 中 所 定义 的 估计 量 的 混合 数据 分 位 数 法 的 直接 应 用 ,通过 例子 构造 
年 龄 体重 分 位 数 。 我 们 报告 了 第 25.50 和 75 个 分 位 数 并 且 在 图 6. 2 中 绘制 出 
男性 的 图 。 窗 宽 用 最 小 二 乘 交 错 鉴 定 法 得 出 ,其 中 hw = 1.22 h. =8. 11,A, 
=0 12. 


体重 (千克 ) 





2 4 6 8 10 2 H 16 I 2 
年 龄 ( 岁 ) 


图 6.2 男性 的 年 龄 体重 分 位 数 


图 6. 2 很 好 地 揭示 出 数据 集 所 呈现 的 许多 特性 ,包括 随 年 龄 增长 出 现 的 异 
方差 性 和 在 体重 的 条 件 累积 分 布 函数 中 的 非 对 称 性 。 


6.8.3 条 件 风险 价值 


金融 工具 受 多 种 风险 的 影响 ,包括 利息 风险 .违约 风险 流动 性 风险 和 市 场 
风险 。 风 险 价值 (VaR) 用 来 衡量 后 者 。 它 是 一 个 对 以 下 损失 数量 的 单独 估计 ， 
由 于 一 个 特定 持 有 期 的 一 般 市 场 活动 ,在 一 种 工具 中 人 们 的 头寸 可 能 在 数量 上 
会 损失 。 人 们 可 以 把 VaR 当 作 对 一 给 定 的 概率 在 一 给 定 的 时 期 内 金融 头寸 的 
最 大 损失 ,因此 ,VaR 是 在 正常 市 场 条 件 下 由 于 一 个 意外 事件 带 来 的 损失 的 一 
个 简单 指标 (Tsay(2002,p.257) ) 。 接 下 来 ,我 们 对 Li 和 Racine(2007) 中 讨论 
的 应 用 进行 介绍 。 
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àd 


用 AV(1) 表示 一 种 金融 工具 的 价值 从 时 间 t 到 t +1 的 变化 ,我 们 定义 在 / 

时 间 区 间 概 率 为 p 的 VaR 为 

p = P[AV(l) < VaR] = F,( VaR) 

其 中 F,( VaR) 是 AV(71) 的 未 知 累积 分 布 函数 。VaR fE p 很 小 时 取 负 值 ,因为 金 
融 工 具 持 有 者 遭受 损失 。. 因此 , 持 有 者 遭受 的 损失 大 于 或 者 等 于 VaR 的 概率 
是 p, 最 大 损失 是 VaR 的 概率 是 1 -pe VaR, = inflVaR1 F,(VaR) > p| 是 
F,( VaR ) 的 第 p 个 分 位 数 , 因 此 VaR, 就 是 累积 分 布 函数 F,( VaR ) 的 第 p 个 分 位 
数 。 一 般 做 法 是 去 掉 下 标 p, 例 如 “5% VAR” (VaRoos)。 显 然 累 积分 布 函 数 
F,( VaR ) 在 实践 中 是 未 知 的 , 且 必 须 被 估计 。 

条 件 风险 价值 (CVaR ) 用 来 测量 当 含 有 协 变量 时 的 VaR , 它 在 一 个 协 变量 
向 量 于 的 条 件 下 进行 估计 。 当 然 条 件 累 积分 布 范 数 F,( VaR | X) 同样 未 知 并 且 
必须 被 估计 。 在 文献 中 能 够 找到 各 种 各 样 的 参数 方法 。 接 下 来 ,我们 把 来 自 五 
个 流行 参数 方法 的 结果 与 在 式 (6. 19 ) 中 定义 的 非 参 数 分 位 数 估计 量 进行 比较 。 

我 们 考虑 在 Tsay( 2002 ) 中 所 用 的 IBM 股票 数据 (~ ,从 1962 年 7 月 3 日 到 
1998 年 12 月 31 日 日 收益 的 对 数 (% ) ) ,如 图 6.3 所 示 。 收 益 的 对 数 近似 等 于 
金融 头寸 价值 的 百分比 变化 ,并 且 自 始 至 终 使 用 这 种 度量 。CVaR 因此 用 百 分 
比 的 形式 ,由 7,,, 分 布 的 分 位 数 计算 得 出 ,以 在 t 时 可 利用 信息 为 条 件 , 所 以 
CVaR 的 金额 等 于 个 人 头寸 的 现金 价值 乘 以 收益 序列 对 数 的 CVaR。 接 下 来 ,我 
们 计算 一 天 区 间 内 (!=1) 的 CVaR。 


0.1 








0 100 2000 3000 4000 5000 6000 7000 8000 9000 
观测 值 


图 6.3 1962 年 7 月 3 日 至 1998 年 12 H 31 H IBM 股票 日 收益 对 数 时 间 图 


D 对 一 个 长 期 头寸 我 们 关心 下 尾 回报 , 即 由 于 价值 下 降 的 损失 。 对 一 个 短期 头寸 我 们 关心 上 尾 ， 
即 由 于 价值 上 升 的 损失 。 在 后 一 种 情况 下 我 们 简单 地 构建 1 — F,( VaR) 模 型 而 不 是 F( VaR)。 当 然 ,在 
任何 一 种 情况 下 我 们 都 是 在 构建 分 布 尾 部 的 模型 。 
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根据 Tsay ( 2002 ) ,我 们 使 用 下 面 的 解释 变量 为 IBM 股票 日 收益 对 数 的 
CVaR 建 模 ; 

(i) X,:10 月 11 月 12 月 示 性 变量 ,如 果 上 在 第 四 季度 等 于 1。 这 个 变量 
关注 第 四 季度 的 潜在 影响 (或 者 年 末 效 应 ) ,如 果 存 在 ,其 对 IBM 日 股票 收益 的 
影响 。 

(ii) XX,: 上 一 交易 日 行为 示 性 变量 , 当 且 仅 当 上 一 交易 日 收益 对 数 小 于 或 
等 于 2.5% 时 等 于 1。 这 个 变量 表示 在 上 一 交易 日 当 IBM 股票 价格 下 跌 了 
2. 5% 或 更 多 时 恺 慌 出 售 的 概率 。 

(iii) X, :波动 率 的 定性 测量 ,测量 了 在 上 -1 和 4:-5 之 间 对 数 收益 数量 超 
Wt— ABE Ir, ;1=2.5%(i=1,2,…,5) ) 的 元 数 。 

(iv) Xa :年 度 趋势 ,定义 为 (年 限 数 上- 1961)7/38 ,用 来 检测 IBM 股票 极端 
收益 的 任何 趋势 行为 。 

(v) X,,: 对 于 均值 修正 序列 ,一 个 以 高 斯 GARCH(1,1) 模 型 为 基础 的 波动 
率 序列 ,等 于 o,, 其 中 0 是 GARCH(1,1) 模 型 的 条 件 方差 。 

K 6.2 给 出 了 Tsay(2002 ,pp.282 ,295 ) 中 报告 的 结果 ,并 包含 式 (6.19) 中 
定义 的 估计 量 , 用 许多 现 有 的 方法 测算 1998 年 12 月 31 日 的 CVaR。 解 释 变量 
取 值 为 X, = 1,KX, 66 SO0,A, vig0 SO X. oo =0 9737 X; g = 1. 7966, 这 些 值 
基于 一 个 取 值 为 1000 万 美元 的 多 头头 寸 , 因 此 如 果 风 险 价值 是 -2% , 则 我 们 
得 到 VaR = 10 000 000 x0. 02 =200 000( 美 元 ) 。 


# 6.2 IBM 股票 一 个 多 头头 寸 的 条 件 风险 价值 (单位 :美元 ) 
模型 5% 1% 
异 质 泊 松 分 布 ,GARCH(1,1) 303 756 497 425 
条 件 正 态 分 布 ,IGARCH(1,1) 302 500 426 500 
AR(2)-GARCH(1,1) 287 700 409 738 
FHE t, 分 布 ,AR(2)-GARCH(1,1) 283 520 475 943 
极 值 166641 304 969 
LSCV CDF 258 727 417 192 


可 以 观察 到 ,根据 对 参数 模型 的 不 同 选择 ,在 这 个 例子 中 对 5% CVaR 人 们 
可 以 得 到 的 估计 值 相差 82% 之 多 ,对 1% CVaR 相差 63% 。 当 然 ,这 个 差异 由 模 
型 的 不 确定 性 产生 。 有 人 也 许 会 用 贝 叶 斯 方法 去 处 理 这 种 不 确定 性 ,或 者 用 平 
均 模 型 ,或 者 另 考虑 对 函数 设 定 稳健 的 非 参 数 方法 。 核 分 位 数 方法 提供 了 可 能 
对 实际 工作 者 有 价值 的 有 意义 估计 的 指导 。 非 参数 分 位 数 估计 量 的 另 一 个 用 
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处 也 许 是 非 参 数 地 评估 累积 分 布 函数 ,在 通过 以 上 的 参数 估计 量 产生 的 值 处 来 
评价 参数 值 事实 上 对 应 哪个 分 位 数 ,当然 假定 参数 模型 是 误 设 的 。 

有 趣 的 是 ,Tsay(2002 ) 发 现 X A 已, 是 不 相关 的 解释 变量 。 最 小 二 乘 交 错 
鉴定 法 窗 宽 与 之 相 一 致 。 然 而 ,X, 也 被 发 现 是 不 相关 的 ,因此 只 有 一 个 波动 性 
指标 是 相关 的 。 


6.8.4 意大利 真实 收入 ,1951 一 1998 年 


我 们 再 次 考虑 之 前 在 1. 13.5 节 中 讨论 过 的 意大利 GDP 面板 数据 , 它 包 含 
意大利 21 个 地 区 1951—1998 年 的 收入 数据 ( 百 万 里 拉 ,1990 年 为 基期 ) 。 我 们 
考虑 在 式 (6. 19) 中 定义 的 估计 量 并 对 第 25.50 和 75 收入 分 位 数 建 模 ,把 时 间 
看 成 有 序 离 散 回归 元 。 图 6. 4 绘 出 了 分 位 数 结 果 估 计 值 。 

35 
30 


人 均 真 实 GDP 





1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 
年 份 
图 6.4 意大利 真实 GDP 的 收入 分 位 数 


回忆 第 1 章 图 1.9 表明 收入 分 布 从 20 世纪 50 年 代 早 期 的 单 峰 曲线 发 展 为 
20 世纪 90 年 代 的 显著 双 峰 。 这 个 特征 被 非 参 数 分 位 数 估计 量 清晰 地 捕捉 , 正 
如 在 图 6. 4 中 所 看 到 的 。 


6.8.5 多 元 YY 条 件 累积 分 布 函数 示例 :OECD 条 件 下 的 GDP 和 人 口 增长 


在 第 5 章 5. 5. 5 节 我 们 对 多 元 了 条 件 概率 密度 函数 建 模 , 用 窗 宽 选 择 的 数 
据 驱动 方法 ,样本 容量 是 n=616,Y 由 下 面 的 变量 组 成 :y, ,每 阶段 人 均 收 入 增 
长 率 ;y,, 每 阶段 年 人 口 增长 率 ;x*,OECD 身份 (0/1)。 我 们 现在 估计 条 件 累积 分 
布 函数 F(y,,y,1x) ,并 展示 在 图 5. 5 中 给 出 的 条 件 概 率 密度 函数 的 结果 , 即 我 
们 再 次 用 Hall 等 (2004 ) 最 小 平方 交错 鉴定 法 绘 出 Ë (yr, yy lX =0)#l Ë (y, yl 
X=1)。 

图 6.5 给 出 了 一 个 多 元 了 条 件 累 积分 布 函数 的 清晰 画面 。 一 个 随机 占 优 
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关系 是 明显 的 ,OECD 国家 与 非 OECD 国家 相 比 倾向 于 拥有 更 低 的 人 口 增长 率 
和 更 高 的 GDP 增长 率 。 


1.00「 ”一 一 非 OECD 国 家 
一 0.80 上 一 一 一 OECD 国家 
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图 6.5 多 元 了 条 件 累 积分 布 函数 


6.9 证 HJ 209 


6.9.1 定理 6.1、6.2 和 6.4 的 证 明 


定理 6.1(i) 的 证 明 : 

E[F(yl x)j(x)] = E[1(Y, < y)W,(X,,x)] 
= E[W,(X,,=)E(1(Y, < y) | X.) ] 
= E[W,(X,,z=)F(y! X,) ] 





ë (hh) Jz) WE > *)F(y1 z)dz 


[Fe + ho)F(yl x + hv)W(v) dv 


= [p(x) + (oh TD 


x [Fo x) + S" P yl x)h,u, 
s=1 


K, (x) hhv,v, | 


iM- 


q 


TÀ Y F,(y! x)h,h,v,v, | Ww) do +o(l h1?) 


= p(x)P(yl s) + T X Mila (x )F,(y1 2) 
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w g R EN A & © = & 


+ 2u, (x)F, (yl x) +F(yla)mg,(a)] +01 h1?) — (6.36) 


类 似 地 ， 
E[p(x)] = E[W,(X,,z)] 


= u(x) + (1/2) e, Y` Bn, (z) +o(l h1?) (6.37) 
注意 E[M(y,x)] =E[F(yYIx)j(x)] -F(ylx)E[j(x)], 所 以 定理 6.1(i) 
可 以 从 式 (6.36) 和 式 (6.37) 中 得 到 。 口 
210 定理 6.1(ii) 的 证 明 : 


var(M(y,x)) = n'var[(1(Y, < y) - F(yl! x))W,(X,,x)] 
= n|E[(1(Y, < y) - F(y! x)) ]W, (X,,x)° + 0(1)| 
= n'E[|E[(1(Y, < y) - F(yl x)) | X,]W, (X,,x)°| + O(n`') 
= n'E|[F(y1 X,) -2F(y| x)F(y! X,) 
+ F (yl x)’ ] W, (X,x) |} + O(n`') 
= n” fula) [FC z) —2F(yl x)F(y1 z) 
+ F (yl x) ] W, (z,x) dz + O(n™') 
= (nh,:--h,) aO -ho)[F(yl x - hv) - 2F(yl x)F(yl x — hv) 
+F(yl x)']W (v) ds + O(n ') 
= K'(nh,--h.) 'u(sz)[F(yl x) - F(yl x)°] 
+ O( (nhh) ' | h1? +n") 
Hp < = fo (s) dv, g 


定理 6. 1 (iii) 的 证 明 :定义 B,(y,z) = > hB, (y,2), 那么 
[F(yl x) -F(yl x) - B,(y,z) ] 

= [F(yl x) - F(y| x) - B,(y,zx)]ñ(x)/ñ(x) 

= [F(y! x) - F(y! x) - B,(y,z)]#(z)/Zu(z) + o,(1) 

= Á(y,z)/u(x) + o,(1) 
其 中 A(y,x) =[F(ylx) - F(ylz) - B ,(y,x)]#(x)o HEPR6.10i)fml(i)3&1] 
可 知 :E[A(y,x)] =O0(1hl ), 以 及 var[ A(y,x)] = (nh, h.) p(x) var(y,x) 
+O(m,)(m, = (nh, h.) 1hl*)。 通 过 中 心 极限 定理 ,可 以 证 明 : 

(nhh) A(Y,x) — N [0,a (a) En, ) 依 分 布 收 合 
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因此 ， 
(nhh) [天 (yx) - F(y,x) - B,(y,x)] 
= (nh,--h )'?A(y,x)/u(x) +o,(1) 
(s) NCO pls) E.) = N(0,X,.) o 
定理 6.2(i) 的 证 明 :使 用 引 理 6. 1 我 们 有 211 
[Cry] = E| o 本 四] 
= EfE| e(* | 
w“. ` 2 
5 Ef | reyi X.) + Faly X,) |W CX, pæ) |+ oCh) 
= ZORE z) + Sap (y| z) |W, (z,*) dz + o(ho) 
= ja + hv) [For x + hv) 
hš 
sC ss ) | wo)d + o(h2) 
h: SP 
= p(x)F(y| x) + = p(x) Folyl z) + k > him, (x)F, (y1 z) 
+ EF(y1 a) n, (a) + (I À 12) (6.38) 
由 式 (6. 37) 和 式 (6.38) 可 以 得 到 定理 6.2(i)。 口 
定理 6.2(ii) 的 证 明 : 令 H, =h h, ,通过 使 用 引 理 6. 1 ,我 们 有 212 


var[ M(y,x) - F(y| x)ñ&(x)] 
= a "va[|[c [7 ]- Pr x) ] W(X,,x) | 


Eg{Elc (于 一 ^) |x]- 2F(y1 )F|6| 人 w) jx] 


+ F (y| iega +0(1) 


E|[F(yl X,) -— h C,F,(y! X,) -2F(y| X,)F(yl x) 
+F(yl x)? +O( h12)]W1 (X,,z)| + O(n`"') 


JaC) EFC! z) -hoCiFoly! z) +2F(y1 2)F(y| z) 
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至 & Bi 5 x m ® % = 


+ F(yl z)?]W' (z,x)dz + (s.o. ) 


(nH,) ful +heo)[F(yl x + hv) — hoCF (yl x + he) 
+2F(yl x +ho)F(yl x) + F(yl| x) ]W°(v)dv + O(n ') 

(nH, ,) 'u(xw)K&*|F(yl x)[1 — F(yl x)] -haCu(x)F (yl! x) | 
+ 0O(|! hl|' (nH) +n") 


= (nH,) p(s) | Ep -hn(y,x) | + O00 h 12 (nH) - 1 +a) D 

定理 6.2(ii) 的 证 明 : 根 据 (i) Gii) 以 及 Liapunov 中 心 极限 定理 ,可 得 

(iii) o o 
引 理 6.1 


(i) s| o |=) x.) =F(y1X,) +(1/2)x;B2 F, (y|X,) +o(h2) , 
(ü) s| es |x] =F(y1X,) -h,C,F,(y1X,) +o(h,), 其 中 C, = 


2[GCo)w(v)vdv, 

证 明 :本 题 证 明 留 作 习题 。 口 

引 理 6.2 E(y+e,lx) -天 (ylxz) = f (ylx), + 0, (h°) + o, ( 8, + 
(nhh) ~?) 

证 明 : 令 4,(e,) =[F(y+e,lz) -Ê(ylx)]úl(x)/ulx), IKA F(y +e, lx) 
-Ê(ylx) =4,(s,)[1+o,(1)]。 通 过 引 理 6.1, 我 们 有 


E[A,(e,)] = efe [7 t = = 5) - c[ 7 5) bere 





= El[F(y+e,| z) - F(y| x) + 0(h.) ]K,(X,,x) | 
= E|[f(y! X,)e, + OCE?) + OCh?) ]K,(X;,x) |} 
= f(y| X,)e,/u(x) + Ole + h°) 
类 似 地 ， 
Jar =i zy 2 y * 6 , = Y,y _ y = Y, + 2 £ 
ar[A,(z.)]< n'y (x) F| [c( 一 人 一 一 e 2)] ea a 


0 
= 0(e, (nhh) ') 
因此 ， 
P(y+e,l x) —- F(y| x)= A,(s,)[1 +0,(1)] 
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¿z E E 


= fiyl x)e, + 0,(h,) + o,(#, + (nh,=-h,)™'?) 口 
定理 6.4 的 证 明 : 由 定理 6. 2 我 们 知道 忆 (ylx) 一 F(ylx) 依 概率 收敛 。 由 
Tucker( 1967 ) 的 定理 1 得 
sup | P(yl zx) - F(yl| x) | — 0 依 概率 收敛 (6.39) 
因为 F(ylx) 是 一 个 条 件 累积 分 布 函数 。 
由 于 g(x*) 是 唯一 的 ,这 意味 着 
ô = ó(#) = minja - F(g (x) -el z), F(g (x) + #l x) -a] >0 
容易 得 到 
P[I a(x) -q.(x)! > e]< P[I F(q.(x)!] x) -Frlx)1>5] 
< P[ sup | Fl(y| x) -— F(yl x)! >ô] 


(6.40) 


由 式 (6.39) 它 趋 于 0。 因 此 ,EP(ylx) - F(ylz)-0。 我 们 现在 来 证 明定 理 6.4, 214 


HAER v, $ e, = B.(x) + (nh) o, (x)v, 8A H 3| 6.2 和 假定 h, = 
o((nh, h )'), 
Q.(s) Z P[(nH°)'2e (a) lial) - q.(z) - B, (x) 
+o, (l hl? +I A1)] <v] 
— P[q,(x) < q,(x) + e,] 
= P[P(q, (x) +e, | x) >a] 
—P[P(q,(x) | x) > - f(q,(x) | x)e, +a] (6.41) 
因此 ， 
Q.(s) ~P[ (nhh) '(q.(z) | z) 
x |F(q,(z) | x) -—a - B,(q,(z) | x)|} >- x] — (v) o 
其 中 B(: ) 是 标准 正 态 分 布 。 
6.9.2 定理 6.5 和 6.6 (混合 协 变量 情形 ) 的 证 明 
定理 6.5 由 下 面 的 引 理 6.3 和 6.4 证 明 , 而 定理 6.6 由 引 理 6.5 #l 6.6 
证 明 。 
引 理 6.3 
(i) E[M(y,x) ] = (x) > hB, (yx) + (x) San, (ray +o(1 À Í+ 


| hl). 
(ii) var(M(y,x)) =<'tu(x)F(ylz)[1 -F(ylz)],JÜrB B.(y,z)#0 B, (y,z) 
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3 a * z = Rd 4 ° "x 


在 定理 6.5 中 定义 。 
证 明 : 见 Li 和 Racine(2007) 。 
引 理 6. 4 


(nhh) ?[P(yl x) - F(y!| x) - 3>`h,B,,(y,z) - > A,B,(y,x)] 


— N(0,V) 
Hp V=<x'F(ylx)[1 -— F(ylz)]Zu(x). 
证 明 : 注 意 F(ylz) - F(ylx) =M(y,xz)/ñ&(x) =M(y,z)/g(z) +0,(1),5l 
理 6.4 由 引 理 6.3 和 Liapunov 中 心 极限 定理 得 到 。 
引 理 6.5 


(i) E[M(y,x)] = a(x) >` hsB,(y,x) +u(x) > A.B, (y,x) +o(l À | + 
s=0 s=1 


| h1?), 
(ii) var( M (y,x)) = <° (nh, h ) p(x) x [F(ylxz) -F (ylzx)° ~ 
hCiF (ylx)]。 
证 明 : 这 里 的 证 明 留 作 习 题 。 口 
引 理 6. 6 


(nhlz) - FC 1 x) - X KB, (ya) - >` A,B, (y,z) | 


£ N(0,V) 
Hp V= [F(ylx) -F(ylx)’]/ulx)s 
证 明 : 注 意 
P(yl x) - F(yl x) = M(y,<x)/ñ(x) = M(y,x)/m(x) +o,(1) 
引 理 6.6 由 引 理 6.5 和 Liapunov 中 心 极限 定理 得 到 。 口 
6.10 J 题 


习题 6.1 证 明 引 理 6.1. 

提示 :用 变量 替换 和 分 部 积分 ,如 我 们 在 1.4 节 的 做 法 。 也 要 注意 
2|c(o)w(o)d = faco) = @(v)i", =1 

习题 6.2 证 明 引 理 6.5. 

习题 6.3 证 明定 理 6.3。 

提示 :模仿 定理 6.4 的 证 明 ,但 不 要 引入 Aoo 
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D a & 最 az gz 


习题 6.4 证 明 对 一 般 的 9 和 7 情形 ,最 小 化 IMSE[ É (y lx) ] 的 最 优 平滑 参 
HER h, ~n t ( s =1,-. q) ,A,~n tO (s =l, r), ~n tt, 

提示 :使 用 的 论证 与 式 (6.6) 和 式 (6.7) 下 面 的 两 段 相似 。 

习题 6.5 推导 式 (6. 13)。 

提示 : 拉 格 朗 日 函数 记 为 


L= Ym) -y| X P) -1] - 3: (X, - z)p,(z)K,(X,,z) 
一 阶 条 件 有 


i 5ra) -10 (6. 42) 

ðL - 
mS a p:(x) (X; - x)K,(X,,x) Z 0 (6.43) 
9 £ “w. = s e sh UE x) € 6 (6.44) 


op, (x) "a 
式 (6.43) 可 以 导出 1=p;(x)[y, +y. (X, -x)K;(X;,x) ]。 关 于 i 求 和 ,再 由 式 
(6. 42 ) 和 式 (6. 43 ) 得 


b. = sy, > p(x) +y > p.(z) (X, _- x)K,(X,,z) = Y. 


将 y, =n 代入 式 (6.44) , ë [HS (y, = y) 
I 


ml) wn TIFT = RCE] 


这 证 明了 式 (6. 13)。 
因此 ,我 们 可 以 通过 选择 y 来 最 大 化 对 数 似 然 函数 : 
L(y) = > lnpi(x) = 一 > In[1 + y(X, — x)K,(X,,x) ] 


习题 6.6 
(i) 推导 式 (6.32) 。 
提示 : 


h(t) = lim( PG < T< t+ Ati T > 0)】 


= lim( È :| red r> a) 


= lim 


li "=: Fo)doxP(T > )) 
= fy(t) /P(T > t) 
= fx(tyZ[1 s< F,(t)] 


216 


217 


169 


170 


非 参 数 计量 经 济 学 


š$ & R k 5 8 w & “< 


Cii) HEH f, (x) = h(x)exp(- [hy) dy). 


提示 : 
š š r(v) 
J ota | TF 
Tim 
=- In[1 - F,(v)] 
这 意味 着 
i= Fe = e` [Ana 
代入 (i) ,我 们 得 到 (ii) 。 


回 回 回 回 回 o 回 回 [=] m) m) [m] 


第 2 部 分 半 参 数 方法 


回 [m] 回 [m] m) [m] m) [m] [=] [m] 回 [m] 


第 7 章 ， 半 参数 的 部 分 线性 模型 


在 这 一 章 我 们 要 讨论 一 个 相对 简单 且 已 广泛 使 用 
的 半 参 数 模型 一 一 半 参 数 部 分 线性 回归 模型 。 可 以 人 参 
考 Härdle, Liang 和 Gao(2000 ) 对 部 分 线性 模型 的 一 个 
全 面 处 理 。 大 致 来 说 , 半 参 数 模型 就 是 模型 中 某 些 成 分 
为 参数 ,而 其 余 成 分 为 未 设 定 的 函数 。 因 此 ,这 些 模型 
包括 有 限 维 参数 ,同时 也 包括 一 些 未 知 函 数 ,这 些 未 知 
函数 可 以 被 视 为 含有 无 限 维 参数 的 函数 。 

部 分 线性 模型 是 实践 中 所 使 用 的 最 简单 的 半 参 数 
模型 之 一 。 我 们 将 用 这 个 模型 来 介绍 半 参 数 模型 ,因为 
它 的 估计 是 直接 的 ,只 涉及 回归 函数 的 基本 核 估计 和 最 
小 二 乘 回归 。 这 个 模型 也 用 于 说 明 在 半 参 数 模型 的 估 
计 中 所 产生 的 一 些微 妙 的 问题 。 例 如 ,有 限 维 参 数 ( 模 
型 的 参数 部 分 ) 通常 用 一 个 参数 Vn 速度 来 估计 ,尽管 我 
们 通常 需要 更 强 的 正则 性 条 件 和 对 平滑 参数 更 加 严格 
的 条 件 以 得 到 模型 参数 部 分 的 /7 速度 。 


7.1 部 分 线性 模型 


一 个 半 参 数 部 分 线性 模型 由 下 式 给 出 : 

Y. = X. B. 3 pg0Z,) ws ú = lm (71) 
其 中 X, 是 p x1 阶 向 量 ,B 是 p x1 阶 未 知 参数 的 向 量 ,并 
H 2Z,eR"。g(:) 的 函数 形式 未 设 定 。 有 限 维 参数 B 组 
成 模型 的 参数 部 分 ,未 知 函 数 g(… ) 组 成 模型 的 非 参 数 部 
分 。 数 据 被 假定 为 独立 同 分 布 并 且 E(u,1X,,2,) =0, 我 
们 也 允许 存在 一 个 未 知 形式 的 条 件 异 方差 误差 过 程 
E(w Ix,z) =os(x,z)。 我 们 的 讨论 关注 怎样 得 到 B 的 


221 


222 


173 


223 


174 


非 参 数 计量 经 济 学 


一 个 Vn 一 致 佑 计量 ,一 旦 得 到 ,g(: ) 的 估计 量 也 可 以 很 容易 地 得 到 。 
7.1.1 BB 的 识别 


为 了 识别 参数 向 量 8, 需 要 一 些 识 别 条 件 。 注 意 X 不 能 包含 常数 ( 即 B 不 
能 包含 截 距 ) ,因为 如 果 包 含 截 距 ,例如 a, 它 不 能 从 未 知 函数 z ( - ) 分离 地 识别 
出 来 。 也 就 是 说 ,对 任意 常数 cz0 ,观察 到 w+g(z) =[a+c] +[g(z) -c]= 
as + gwen(z) ,于 是 ,新 的 截 距 与 新 的 函数 g(:) 之 和 与 式 (7.1) 中 旧 的 和 在 观测 
上 相等 。 因 为 g(: ) 的 函数 形式 未 设 定 , 这 立刻 告诉 我 们 在 一 个 部 分 线性 模型 
中 , 截 距 项 不 能 被 识别 。 我 们 在 7. 2 节 推 导出 8 的 半 参 数 估 计量 的 渐 近 分 布 
后 ,可 以 明显 看 到 ,6 的 识别 条 件 变 成 要 求 p E|[X -E(XIZ)][X - E(XIZ)]'] 
是 一 个 正定 矩阵 ,这 意味 着 下 不 能 包含 一 个 常数 并 且 的 组 成 部 分 不 能 是 Z 的 
一 个 确定 性 的 函数 ,否则 六 -E(XIZ) =0 H o 将 是 奇异 的 。 


7.2 罗 宾 进 的 估计 量 


我 们 首先 用 式 (7. 1) 的 一 个 不 可 行 估 计量 去 描述 8 估计 中 所 涉及 的 机 理 。 
以 Z, 为 条 件 对 式 (7. 1) 取 期 望 ,我 们 得 到 


E(Y.| 2,) = E(X, ! Z,)'8 + g(Z,) L 35 
从 式 (7.1) 减 去 式 (7.2) 得 到 ; 
V - EGY. 1 Z.) = (X, = E(X, | Z)'6 + u, (7.3) 


EX Y, =Y, -E(Y,1Z,)Ã =X, - E(X,IZ,) ,并 对 式 (7.3) 采 用 最 小 二 乘法 ， 
我 们 得 到 一 个 B 的 估计 量 


B... = | 2 k i ] I 2, XY. (7.4) 
通过 Lindeberg-Levy 中 心 极限 定理 我 们 立即 可 以 得 到 (见习 题 7. 1) 
VB - B) SN(0,G YO) (7.5) 


给 定 D EEEH, HEH YEL o’ (XZ) ], ð =E(X, ï). 

这 个 过 程 的 基本 思想 是 首先 用 式 (7. 1) 减 去 式 (7.2) 来 消除 未 知 函 数 
g(")。 然 而 ,虽然 未 知 函数 g(: ) 在 式 (7. 3) 中 被 消除 了 ,但 是 又 引入 了 两 个 新 
的 未 知 函 数 , 即 E(Y.12,) 和 E(X,12,)。 因 此 ,上 面 的 估计 量 B. Au f? , 8 
E(Y.12,) 和 E(X,12,) 是 未 知 的 。 然 而 ,我 们 知道 这 些 条 件 期 望 使 用 核 方 法 可 
以 被 一 致 估计 ,所 以 我 们 用 它们 的 核 估 计量 去 代替 B,, 中 出 现 的 未 知 条 件 期 望 ， 
因此 得 到 一 个 B 的 可行 估计 量 。 也 就 是 说 ,我 们 分 别 用 了, - P. A X, - X, AR 
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蔡 = Y, -— E( Y, 1Z,) MŽ, = X, - E( X,1Z,) ,其 中 


三 É(Y,I Z.) Z n” $ YK,(Z,,Z,)/f(Z,) (7.6) 
X. = É(X,! Z,) Z n” Y XK,(Z,,Z,)/fCZ,) (7.7) 
NE) = n> K,(2,,Z;) (7.8) 


其 中 K,(Z,,Z,) = [Ta |=) š 


在 推导 B 可 行 估计 量 的 渐 近 分 布 时 ,随机 分 母 ( Z.) 的 存在 会 导致 一 些 技 

术 上 的 困难 。 我 们 将 考虑 两 种 不 同 的 方法 来 解决 随机 分 母 的 存在 ,其 中 一 种 方 

法 是 在 随机 分 母 较 小 时 通过 使 用 一 个 函数 来 “修剪 "观测 值 , 另 一 种 是 使 用 密度 

加 权 的 方法 完全 消除 随机 分 母 。 我 们 以 修剪 法 的 讨论 开始 ,定义 一 个 B 的 可 行 
估计 量 为 

Ba{T tr -En -ty TU -dl CD) 


其 中 1,=1(f(2,) >b),4 f(Z,) >b 时 该 值 等 于 1, 否则 等 于 0; 修 前 参数 b = 
b, >0 且 当 n 一 %w 时 满足 b, 一 0。 

为 了 推导 有 的 渐 近 分 布 ,我 们 首先 提供 一 种 定义 并 做 出 一 些 假 定 。 我 们 将 
使 用 9" ,其 中 a >0 H y>2 是 一 个 整数 ,来 表示 这 样 的 平滑 函数 类 :如 果 g eg, 
M z 是 v 次 可 微 的 ;g 和 它 的 偏 导 函数 (直到 vw 阶 ) 都 满足 Lipschitz 型 条 件 , 如 
lg(z) -g(z')1<H,(z) |z -z || ,其 中 已 (z) 是 一 个 具有 有 限 a 矩 的 连续 函 


数 , 且 | l 代表 欧 几 里 得 范 数 , 即 1zl = [> 2. 

条 件 7.1 | 

(i) (Y,,X,,Z,),i=1,2,.-- ,n 是 独立 同 分 布 观测 值 ,Z 服从 概率 密度 函数 
fe 9:( 即 /是 有 界 的 ) ,ge 0;,E(X1z) e 9;, 其 中 v2 是 一 个 整数 。 

(ü) E(ulX,Z) =0,E(u lx,z) =o (x,z) 是 关于 z 连续 的 ,X 和 vw 都 有 有 限 
四 阶 矩 。 

Gii) K(') 是 一 个 乘积 核 , 单 变 量 核 上 (' ) 是 一 个 有 界 v wA, E kC) 
=0(1/[1 +|%1]”'), 


(iv) (n — œ 时 ,n (he h.) b — e , nb Yr o, 
条 件 7.1(i) 83 f — £| 3389 OE 3 4F. RAAM e(z) M E( X1:) HE 
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本 £ E z P 如 x E e 


定 为 v 阶 可 微 。 这 些 加 上 条 件 T. 1 Cii) 的 v 阶 核 ,确保 了 核 估计 量 的 偏 误 是 
o[ Ya) 阶 的 。 

Robinson( 1988 ) 曾 用 到 条 件 7. 1(iy)。 在 实证 应 用 中 ,人 们 可 以 忽略 修剪 
参数 5, 因为 可 以 让 b 以 极 慢 的 速度 趋 于 零 。 这样 ,条件 7. 1(iv) 基 本 等 价 于 


va | > + (noh) | —0, “n>n 


该 条 件 很 容易 理解: 0 ( Y K + (nh,…h,)”) 是 非 参 数 均 方 误差 的 阶 。 可 行 信 
计量 户 和 不 可 行 估 计量 B,, 之 差 与 非 参 数 估计 误差 平方 的 均值 成 比例 。 因 此 ,由 
TÓ Jš p 的 Vi 一 致 估计 量 ,人 们 需要 估计 误差 项 的 平方 比 m” 小 , 即 入 有 + 
(nhh)! k o(n 2) 阶 的 ,导致 了 条 件 7. 1(iv) 。 
定理 7.1 在 条 件 7.1 下 ,我 们 有 
Ja -B)Ż N0,” Yo”) (7.10) 


假定 D 是 正定 的 ,其 中 
@ = E[X,X:], W = E[o'(X,,Z,) X. X:], X, = X, - E(X,! Z) 


定理 7.1 的 证 明 可 在 Robinson(1988) 中 找到 。p 的 渐 近 方差 的 一 致 估计 量 
在 习题 7. 1 中 给 出 。 

比较 定理 7. 1 与 式 (7.5) 给 出 的 分 布 结果 ,我们 看 出 可 行 估 计量 B 与 不 可 
行 估计 量 B,, 有 完全 相同 的 渐 近 分 布 。 这 种 结果 后 面 的 直觉 很 简单 。 如 果 我 们 


忽视 了 修 前 参数 ,那么 ,本 质 上 后 -局 。= 0, ( XK” + (nh…h,)”) 。 根 据 条 


件 7.1(iv) , 非 参数 估计 量 的 均 方 误 差 速度 是 o(n 2) 。 因 此 Vn(B - B...) = 
o,(1) ,这 意味 着 这 两 个 估计 量 有 相同 的 渐 近 分 布 。 

假定 人 们 使 用 一 个 二 阶 核 , 即 假定 > =2。 由 于 大 — ji, 条 件 7.1(iv) 变 为 
mn“ [ Y M + (nh ih.) ']| 7 n [ht + (nh) '] = o(1), 这 要 求 g < 4( 或 9 大 


3, 因为 9 表示 Z 的 维 数 , 是 一 个 正 整 数 ) 。 这 就 是 Robinson( 1988 ) 使 用 的 条 件 。 
因此 ,如 果 4=4, 条 件 7.1(Civ) 要 求人 们 使 用 一 个 更 高 阶 的 核 。 然 而 ,Li 
(1996) 证 明 7.1(iv) 可 用 一 个 下 面 所 给 出 的 更 弱 的 条 件 替代 。 


© 上 ,一 4 意味 着 (h, 一 h)/h=o(1) ,或 等 价 地 ,h, =h+o(h)。 


第 7 章 半 参 数 的 部 分 线性 模型 


条 件 7.2 Áno BRI nb (h h,) /( ht) 一 nb Chh) 


sa Bnk S Ke — D. 
Li(1996) 证 明 
Â -Êu = 0,( XA? + Y Kè (nhh) tn (nhh) ) 
如 果 此 项 是 o(n-'22) 阶 ,我 们 可 得 到 条 件 7.2。 关 于 估计 误差 为 什么 有 这 个 阶 
而 不 是 更 为 熟悉 的 o, > h” + (nh…h,)”) 阶 , 一 个 详细 的 解释 可 参见 Li 
(1996)( 也 可 参见 习题 7.5 中 进一步 的 解释 ) 。 
考虑 所 有 的 h, 有 相同 阶 数 的 情形 (对 所 有 的 s H h, ~h) , 则 条 件 7. 2 变 成 
nmax| h” 一, 大 | 一 oo H mi" 一 0。 如 果 人 们 使 用 一 个 二 阶 核 (> =2) ,这 个 条 件 要 
SK 4v =8 >max(2g - 4,4) ,进而 要 求 g<6, 或 g<5, 因 为 g 为 一 个 正 整 数 。 因 
此 ,只 要 g<5 ,一 个 非 负 二 阶 核能 够 产生 B 的 Yn 一 致 估计 量 。 
下 面 的 推论 的 证 明 可 参见 Li(1996 ) 。 
推论 7.1 除 条 件 7.1(iv) 由 条 件 7.2 代替 外 ,在 定理 7.1 给 定 的 相同 条 件 
下 ,定理 7. 1 仍然 成 立 。 
上 文 所 述 的 半 参 数 估计 量 的 一 个 不 令 人 满意 的 特点 是 用 到 修剪 函数 ,这 要 
求 研究 者 选择 一 个 元 余 的 参数 ,修剪 参数 b。 然 而 ,人 们 可 用 如 下 的 密度 加 权 方 
法 替代 ,来 避免 核 估 计量 中 的 随机 分 母 。 
用 /=f(2,) 乘 以 式 (7.3) ,我 们 可 得 到 
(Y, - E(Y, | Z,))/, = (X, - E(X,! 2,))'Bf. + uf, (91) 
可 用 最 小 二 乘法 估计 B, 通 过 (Y,-E(Y.12,) A 对 (X,-E(X,12,))f 回归 。 
A Bj 表示 8B 的 不 可 行 估计 量 , 则 根据 Lindeberg-Levy 中 心 极限 定理 (见习 题 
7.1) ,我 们 知道 6 是 Yn 一 致 且 渐 近 正 态 的 , 即 
albus - B) S NO0, B; YG) (7. 12) 
HH, O, =EL Ñ, Xf E Y, = E[o*(X,,Z,)X, X f] ,其 中 =X, - E(X,IZ,) 
B 的 一 个 可 行 估 计量 可 通过 用 (Y, -了 )f MA - X.)/, 替代 (Y，- 
E(Y, | ZD) ACX,- E(X,| 2,))f 得 到 ,其 中 这 着 和 f. 是 式 (7.6) 到 式 (7.8) 
中 所 定义 的 E(Y, 1 Z) ECX, | Z) 和 /(X,) 的 核 估计 量 。 因为 YY/f = 
n Y YK, (Z, Z) (f X f.) 不 含有 随机 分 母 (f,) ,在 消去 修剪 参数 后 ,条 件 
7.1(iy) 可 由 下 面 的 条 件 代替 。 
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3 = a & x m š: 2 a 


条 件 7.3 ` n— % 时 ,n (heh)? — œ ,ny , 则 条 件 7. 2 可 


被 替换 为 

条 件 7.4 “noot, 

nmin{ (hh,)/ ( È h) Chah) ] 二 

ny ato, 

下 一 个 定理 给 出 了 可 行 密度 加 权 估计 量 的 渐 近 分 布 。 

定理 7.2 令 B 表 示 忆 的 可 行 密度 加 权 估 计量 ,那么 除 条 件 7.1(iv) 由 条 
件 7.3 或 7.4 代替 外 ,在 定理 7. 1 给 出 的 同样 的 条 件 下 ,我 们 有 

Vn(b, - Ê) -NO ,GD 用 四) 

其 中 $, 和 w, 在 式 (7.12) 中 定义 。 

Li(1996) 在 较 弱 的 条 件 7.4 下 证 明了 定理 7.2。 在 7.5 节 中 我 们 使 用 更 强 
的 条 件 7. 3 提供 了 一 个 证 明 。 正 如 将 看 到 的 ,更 强 的 条 件 7.3 可 产生 一 个 相对 
简单 的 证 明 。 

定理 7.2 表明 可 行 估计 量 6, 与 不 可 行 估计 量 B,,, 有 相同 的 渐 近 分 布 。 

注意 在 估计 6 时 ,为 避免 随机 分 母 而 使 用 特定 加 权 函 数 /KZ, ) 并 未 基于 任 
何 有 效 的 论证 。 事 实 上 , 当 误 差 项 存在 条 件 同方 差 时 ,未 加 权 估 计量 B 可 以 被 
证 明 是 半 参 数 有 效 的 。 

当 误差 项 存在 条 件 异 方差 时 , 即 E(w 1X,,Z,) =o (X,,Z,) ,人 们 可 能 会 有 
这 样 类 似 的 思考 ,通过 选择 w, = 1/o(X,,2,) 作 为 权 函 数 来 得 到 B 的 一 个 有 效 估 
计量 。 然 而 ,一 般 而 言 , 这 种 直觉 是 不 正确 的 。 这 种 方法 将 不 会 产生 B 的 有 效 
估计 ,除了 在 特殊 的 情况 下 ,条 件 方差 仅 是 Z, 的 一 个 函数 。 也 就 是 说 , 仅 当 
E(w 1X,,2,) =o*(2,) 时 ,选择 1/o(2,) 为 权重 将 导致 B 的 有 效 估计 。 在 一 般 
情况 下 ,B 的 有 效 估计 更 加 复杂 ,并 将 在 7.4 节 讨 论 。 


7.2.1 非 参数 函数 的 估计 


从 式 (7.2) 中 我 们 知道 g(Z,) =E(Y, -XX',B12Z,)。 因 此 ,在 获得 p 的 一 个 Vn 
一 致 估计 量 ( 即 B) 之 后 ,g(z) 的 一 致 估计 量 可 表示 为 
> (Y, - X/8)K,(z,Z,) 
T (7.13) 


(z) = ë 
2, K,(z,Z;) 
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其 中 可 被 替换 为 B,。 我 们 知道 非 参 数 核 估 计量 的 收敛 速度 比 参数 Vn 速 度 慢 。 
因此 ,很 容易 看 出 ,&(z) 渐 近 地 等 于 如 下 利用 到 B 真 值 的 不 可 行 估 计量 : 


> (Y, - X. B)K,(z,Z,) 
DD 83— — —— (7.14) 
> K,(z,2,) 

5(z) 的 收敛 速度 和 渐 近 分 布 在 第 2 章 讨论 ,从 8(z) 的 收敛 速度 和 渐 近 分 布 
可 以 立即 得 到 &(z) 的 渐 近 分 布 (见习 题 7.2) 。 

注意 估计 g(z) 时 对 ,的 选择 与 估计 时 的 情形 很 不 一 样 。 为 了 得 到 8p 的 
Vn 一 致 估计 量 , 如 果 9=6, 一 个 更 高 阶 的 核 是 必需 的 。 然 而 , 当 估 计 g(z) 时 ,不 
i q 取 何 值 , 都 没有 必要 用 到 更 高 阶 的 核 。 因 此 ,人 们 总 可 以 用 一 个 非 负 二 阶 
核 来 估计 g(z) , 且 可 以 通过 最 小 二 乘 交错 鉴定 法 (在 估计 g(z) 时 ) 来 选择 平滑 
参数 , 即 人 们 总 是 可 以 选择 h,,… ,h, 来 最 小 化 


> [Y, - X$ - ë-,(Z,,h) ]° (7.15) 
JEH èa (Zoh) =&.,(2,) 如 式 (7.13) 所 定义 的 ,其 中 :被 Z, BIC B 被 


> ER 

注意 在 式 (7. 15) 中 的 因 变 量 是 Y-X'B 而 不 是 Y。 因 为 8-B=0,(n…'”) 
比 任何 非 参 数 估计 量 有 更 快 的 收敛 速度 ,可 以 把 式 (7. 15) 中 的 B 替换 为 B 来 研 
究 交错 鉴定 法 选择 的 h, 的 渐 近 行为 。h, 的 收 化 速度 与 第 2 章 讨论 的 是 一 样 的 。 


可 以 通过 最 小 化 以 下 式 子 来 同时 选择 B A ho 
> [Y, - XB - ë-,(Z,,h) ]° 
在 一 般 条 件 下 , 包括 使 用 一 个 二 阶 核 , 交错 鉴定 法 选择 的 的 阶 为 
0,(n Yo )。 如 果 4<3, 则 此 阶 满足 条 件 7.1(iv).7.2.7.3 和 7.4。 因 此 , 当 
9<3 时 ,人 们 可 通过 最 小 化 > LY, -XB -8(Z1,h) J? FINEP h, MAh, 的 阶 


为 0,(n-"*), 且 B 是 Vn 一 致 的 ,其 渐 近 方差 在 定理 7. 1 中 给 出 。 人 们 也 可 利用 
一 个 部 分 线性 回归 模型 中 的 二 阶 展开 结果 (在 h, 处 ) 选择 平滑 参数 来 最 小 化 直 
到 二 阶 的 均 方 误差 的 估计 值 ( 见 Linton(1995))。 

局 部 线性 估计 量 被 应 用 于 一 系列 的 设 定 中 。 例 如 ,Anglin 和 Gencay( 1996) 
将 其 应 用 于 特征 价格 范 数 的 半 参 数 模型 ;Blundell , Duncan 和 Pendakur( 1998 ) 考 
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虑 了 恩格尔 曲线 半 参 数 估计 的 部 分 线性 模型 ;Engle, Granger, Rvice 和 Weiss 
(1986 ) 使 用 部 分 线性 设 定 来 估计 天 气 与 电力 销售 的 关系 ;Stock(1989 ) 在 部 分 
线性 框架 下 考虑 了 某 些 政策 相关 变量 分 布 的 变化 对 被 解释 变量 的 平均 效应 的 
预测 问题 ;Adams , Berger 和 Sickles( 1999) 应 用 一 个 部 分 线性 设 定 来 研究 美国 银 
行业 的 产量 边界 ;Yatchew 和 No(2001 ) 在 一 个 部 分 线性 模型 中 让 价格 和 年 龄 非 
参数 地 进入 ,在 允许 价格 内 生性 情况 下 估计 了 价格 和 收入 弹性 。 


7.3 Andrews 的 MINPIN 方法 


Andrews( 1994) 提供 了 一 个 一 般 框架 来 证 明 更 广泛 一 类 的 半 参 数 估计 量 的 
Yn 一 致 性 和 渐 近 正 态 性 。Andrews 将 该 估计 量 命名 为 MINPIN ,因为 它 是 通过 最 
小 化 一 个 准则 函数 得 到 的 估计 量 , 该 准则 函数 依赖 于 初始 无 限 维 的 宛 余 参数 
( proliminary infinite dimentional nuisance parameter) 的 估计 量 。Andrews 的 方法 
可 用 于 推导 许多 半 参 数 估 计量 的 渐 近 分 布 ,包括 在 一 个 部 分 线性 模型 中 8 的 估 
计量 。 我 们 在 下 文 简单 地 讨论 此 方法 。 

令 9e CR" 表示 一 个 有 限 维 参 数 ,并 令 7 表示 一 些 无 限 维 的 函数 。 进 
而 , 令 7 为 re KH 的 初始 的 非 参 数 估 计量 ,其 中 Xt 是 一 类 平滑 函数 ,该 平滑 函数 的 
特征 依赖 于 所 考虑 的 特定 的 半 参 数 模型 。 我 们 用 9。 和 7。 分 别 代 表 真 实 参 数 和 
真实 的 未 知 函 数 。 令 6 表示 b 的 估计 量 , 它 是 一 个 函数 最 小 化 问题 的 解 , 其 中 
目标 函数 依赖 9 A 7,7 是 ro 的 初始 非 参 数 估 计量 。 假 定 6 为 0, 的 一 致 估计 


E ,通过 求解 一 个 最 小 化 问题 得 到 如 下 一 阶 条件 : 


Vnm,(0,7) = 0 
Hop m,(0,z) = n" > m(W.,0,7)。 

我 们 考虑 m( W,,9,7) 是 关于 9 可 微 的 情形 。 如 果 7 是 有 限 维 的 ,通过 在 
(Bosto) AEREI nm, (6,7) ,使 用 元 素 对 元 素 均值 展开 式 ,我 们 可 以 建立 6 KA 
近 正 态 性 。 然 而 ,因为 z 是 无 限 维 的 ,在 (9,7) 的 均值 展开 便 不 可 行 。Andrews 
(1994) 建 议 仅 仅 对 Yaim, (6,7) 关 于 0, 进行 展开 ,并 利用 随机 等 价 连续 性 (sto- 
chastic equicontinuity) ( 见 附录 A) 概念 来 处 理 f。 一 个 6 关于 0, 的 均值 展开 可 
得 到 

0,(1) = /nm,(Ó,#) = VR( 的 他 ) + 0m,(0,7) /n(Ó ~ Ba) (7. 16) 


其 中 9 位 于 6 和 0, 的 线性 部 分 。 在 一 些 正则 假定 下 ,可 以 证 明 
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-9 m.(8,;) = n” > =m (W,,8,+) 
"> E[n” 5 =Gm(W,,6, ,7o) | 


= E[ Sm( W,0,,70) | 
=M (7.17) 
于 是 ,假定 MM 是非 奇 异 的 ,从 式 (7.16) 和 式 (7.17) 我 们 得 到 
Vn(O -0) = (- M' +o,(1))a "2? Y m(W,,0,,7) (7.18) 
因此 ,如果 
n’? S m(W,,0,,7) - Di P) m( W, oTa) = 0,(1) (7.19) 


那么 我 们 将 有 
/n(ó -0,) =- M'n? Y m(W,,0 70) + o,(1) 


SN(0,M-'SM-') (7.20) 
根据 Lindeberg-Levy 中 心 极限 定理 ,其 中 $=var(m(W,,0,,7o))。 
实际 上 , 相 比 简单 的 部 分 线性 模型 ,对 于 更 复杂 的 一 般 的 半 参 数 模型 , 式 
(7. 19) 是 很 难 验证 的 。Andrews(1994) 建 议 使 用 “随机 等 价 连续 性 "概念 建立 
式 (7.19) 。 随 机 等 价 连续 性 可 用 来 建立 式 (7.19) 是 因为 如 果 当 n o 时 
pf,ro)-*0(p(，，.) 是 伪 可 度量 ( pseudometric ) , 见 附录 A. 32 的 定义 ) , 且 
y, (r) X: F ç e A 是 随机 等 价 连续 性 ,其 中 4 是 一 个 包含 内 点 +, 的 有 界 集 ,那么 
1 (r) -zx(ri) 1 一 0 (7.21) 
参见 Andrews (1994, zÇ (2. 10)) 对 式 (7. 21) 的 证 明 。 回 忆 >(r) Z 
Vn 元 ,( 9。,7)。 于 是 ,如 果 v,(:') 具 有 随机 等 价 连续 性 , 式 (7. 19) 成立 。 
下 面 的 假定 可 用 来 建立 关于 9 的 Yn 正 态 性 结果 。 
假定 MINPIN 估计 量 9 解决 了 关于 某 个 目标 函数 4(9,7) 的 6 = infd(6,7) 
的 最 小 化 问题 ,并且 因此 其 一 阶 条 件 是 元 (8,7) = n" Y m(W,,0,7) = 0。 其 总 


体 矩 条 件 是 E[m(W,,0, ro) | = 0。 定 义 u, (T) = n'? 元 ,( bo ,7) ,我 们 做 了 如 下 
假定 。 
假定 7.1 ( 正 态 性 ) 假 定 


(i) 62.0, 0,0 ER ' 的 一 个 紧 子 集 。 


(ü) neg. 
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(iii) Vnv, (7) 一 N(0,S) 。 
(iv) 1z,(-)} 在 ro 处 是 随机 等 价 连续 的 。 
(v) m(9,7) 在 9eB 上 是 二 次 连续 可 微 的 , 当 
n"! >》 m(W,,0,7) — E[m(W,,0,7)] 


n! > (9/00)m(W,,0,7) > E[m(W,,0,z) ] 


n” Y (0/90)m(W,,0,z) 2, E[ (9/00)m( W.,,0,7)] 


在 日 xG 上 一 致 ( 即 弱 大 数 定律 一 致 ) 。 

定理 7.3 在 假定 7.1 下 

Vn(6 - 0,) SN(O,M-'SM-') 

证 明 : 上 面 的 定理 是 Andrews(1994) 的 定理 1 的 特例 ,因此 被 省 略 了 。 事 实 
上 ,Andrews 并 没 假定 独立 同 分 布 数据 ,他 允许 时 间 序 列 数据 的 弱 依 赖 和 不 相同 
分 布 的 数据 。 我 们 在 第 18 章 讨论 弱 依 赖 的 数据 。 

实际 中 ,随机 等 价 连续 性 条 件 (假定 7.1(iv) ) 是 最 难 验证 的 部 分 ,特别 是 对 
于 高 度 非 线性 的 半 参 数 模型 。Andrews(1994 ) 使 用 定理 7. 3 对 一 个 局 部 特定 非 
线性 模型 建立 了 Vn 一 致 的 结果 (也 可 参见 Ai 和 McFadden(1997) ) 。 我 们 在 
7.5 节 讨 论 关 于 部 分 线性 模型 的 假定 7. 1(iv) 的 检验 。 

人 们 认为 以 上 的 假定 是 指 目标 函数 关于 它 的 变量 是 平滑 的 ;参见 Chen, 
Lvinton 和 Keilegom(2003 ) 在 准则 函数 是 非 平滑 时 关于 半 参 数 模型 的 估计 。 


7.4 半 参 数 的 效率 边界 


7.4.1 条 件 同方 差 误差 情形 


在 这 一 节 我 们 讨论 式 (7.1) 的 (局 部 ) 半 参数 效率 边界 ,并 考虑 两 种 方法 。 
我 们 首先 在 误差 是 条 件 同方 差 假定 下 推导 (局 部 ) 半 参数 的 下 界 , 即 E(w 1X,,Z,) = 
E(w ) ,其 中 心 是 正 态 分 布 。 这 种 方法 用 到 了 参数 极 大 似 然 估 计 , 且 是 易于 理 
解 的 。 我 们 遵循 了 Newey(1990b) 和 Rilstone(1993 ) 的 论证 。 这 里 的 讨论 将 是 
非 正 式 的 ,不 过 一 种 严格 的 方法 可 在 Newey (1990b) 中 找到 ;同样 可 参见 Begun, 
Hall ,Huang 和 Wellner( 1983 ) 以 及 Tripathi 和 Severina(2001 ) 关于 半 参 数 模 型 效 
率 边界 的 一 般 处 理 ,还 有 Pakes 和 Olley( 1995 ) 的 相关 工作 。 

令 m(z,6) 为 参数 子 模型 ,对 于 某 些 6, 有 m(z,6。) = g(z) ,其 中 5 是 一 个 
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kxl 阶 的 元 余 参 数 向 量 (k 二 gq) 。 该 参数 子 模型 的 参数 是 少 = (B',5') , 且 关 注 
的 参数 向 量 为 8,。 对 于 每 一 个 参数 子 模型 ,有 一 个 向 量 值 的 分 函数 !, ,人 们 可 
以 区 分 关注 参数 p, MERER 86 使 得 l = (4 ,ls)。 半 参数 边界 可 被 解释 为 参 
数 子 模型 协 方差 矩阵 的 上 确 界 。 定 义 元 余 函 数 的 正切 集合 J 为 4 的 所 有 x1 
阶 线性 组 合 的 均 方 闭 包 。 令 P[1,17] 代 表 在 J 空间 上 1, 的 投射 且 定 义 忆 = - 
P[1,17]。 于 是 模型 的 半 参 数 下 界 为 y, = |E[I i'l} 


参数 子 模型 对 应 的 对 数 似 然 函 数 为 : 
L(p,8) = p -TRl 
G 
在 真实 模型 求 值 时 的 得 分 函数 为 
aL 
3 


[= | (l1/o')uX | 

l; - (1l/o’ )ug'" (Z) 

其 中 我 们 用 到 əg(z,86,)/6; =g" (z), HF gln) RRE, A g” (2) ERREN 
别 。 我 们 得 到 正切 集合 4('…), 的 所 有 大 xl 阶 线性 组 合 的 均 方 闭 包 ,可 表 
示 为 








aL 
Ə6 


A = luA(z):E|[A(Z)]'] < œ} 
EAC) EK l 的 投射 为 (1/o )uE(X1Z) ,因此 ,我 们 得 到 的 效率 得 分 为 
I Z -ElI A()) = (1/0°)u(X - E(XI Z)) 
因此 , 式 (7. 1) 的 半 参 数 效 率 边界 为 


V= ELG I; ] 1 = o'lE[(X -E(x -£1 (7.22) 
Ht £ =E(X1Z)., 
于 是 ,在 式 (7.9) 中 定义 的 8 在 渐 近 协 方差 矩阵 工 等 于 部 分 线性 模型 的 半 
参数 下 界 的 意义 上 是 半 参 数 有 效 的 。 


当 式 (7. 1) 是 一 个 线性 回归 模型 , 即 g(z) =a +z'y,a 是 一 个 标量 且 yeR"' 
时 ,我 们 也 可 以 将 Vs 与 B, 最 小 二 乘 估计 量 的 渐 近 方差 进行 比较 ， 


y; = X; p, +e + Z/íy +u, (7.23) 
S B。. 表 示 基 于 式 (7. 23 ) 的 B, 的 普通 最 小 二 乘 估计 量 , 易 证 明 
/n(É.,. - Bo) SNO, Va) (7.24) 


Hp Va = E| [X, -a -bZ,][X, -a -bZ,]'| "(见习 题 7.6) ,其 中 a 和 4 分 
别 为 p x1 与 p xq 维 常数 矩阵 ,a + bZ, J: X, 在 关于 Z, 的 线性 空间 上 的 最 佳 线 


性 投射 。 现 在 比较 V, 与 V, ,我 们 知道 车 (X12,) =a + 462, 是 Z, 的 线性 函数 ， 235 
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x x = R S < & a #% 


那么 有 内 = Pu。 然而 , 若 已 (X 12,) 不 是 Z, 的 线性 函数 ,那么 ,对 任 一 函数 
s(Z,) ,E|[X, - E(X,|Z,)][X, - E(X,IZ,)]'| -E|[X, -s(Z,)][X, -s(Z,)]'| 
是 半 负 定 的 (根据 定理 A.3)。 于 是 , 当 E(X,1z) 关 于 z 非 线性 时 ,Vs -Van EE 
定 的 。 在 后 面 这 种 情形 , 半 参 数 有 效 估计 量 Bu 与 使 用 了 额外 信息 g(z) =a +z'y 
的 参数 估计 量 B.. 相 比 是 渐 近 弱 有 效 的 。 


7.4.2 条 件 异 方差 误差 情形 


一 般 的 条 件 异 方差 误差 情形 下 ,对 一 个 部 分 线性 模型 的 半 参 数 有 效 边 界 的 
推导 可 以 参考 Chamberlain (1992) ,而 Ai 和 Chen (2003) 考虑 了 一 般 的 半 参 数 
模型 的 有 效 估 计 ,部 分 线性 模型 作为 一 种 特殊 情形 被 包括 其 中 。 下 述 的 讨论 基 
F Ai 和 Chen。 在 本 节 给 出 的 结果 中 包含 视 为 一 个 特殊 情形 的 条 件 同方 差 误差 
模型 。 

考虑 部 分 线性 模型 

Y, = XB +g(Z,) +u, i=1,.%,n (7.25) 
其 中 E(w 1X,,2Z,) =o (X, ZO WERKA. 

为 了 推导 出 条 件 异 方差 误差 情形 下 p, 的 半 参 数 有 效 边界 ,我 们 首先 假定 
o (XX,,2,) 是 已 知 的 ,然后 再 着 手 讨论 当 o? (*,z) 未 知 时 ,如 何 得 到 一 个 可 行 的 
半 参 数 有 效 估 计量 。Ai 和 Chen (2003 ) 证 明了 可 以 通过 同时 (联合 地 ) 关 于 po 
和 未 知 函 数 g 最 小 化 如 下 目标 函数 来 有 效 地 估计 Bo: 
inf EIO, - X, B, - g(2:) 17/0 (XZ) } (7.26) 


BeB,.ge 


HPBAR' 的 紧 子 集 ,9 为 一 平滑 函数 族 。 
在 实际 应 用 中 ,人 们 使 用 的 是 样本 均值 而 不 是 总 体 均 值 (7. 26) ,从 而 最 小 
化 下 式 : 


int > [Y, ~ X B, - g(Z,) ]* Zo (X,,Z,) (7.27) 
最 小 化 过 程 可 以 首先 处 理 未 知 函 数 5(') 。 也 就 是 说 ,我 们 首先 视 8, 为 一 
固定 常数 ,对 式 (7.26) 关 于 &(') 进 行 积 分 变换 ,我 们 得 到 
2E|E[ (Y, - XB, + g(Z,))/o?(X,,Z,) | Z;]8(Z;)} =0 (7.28) 
其 中 6(Z,) E: 2, 的 一 个 任意 函数 。 对 式 (7. 28) 解 出 g(2,) 得 到 
1 y. x: 
Z) = —— | E| ~> | Z | - E| — | Z .|B, 7.29 
g(Z,) 5 [2 |z ) (Z= | zja] (7.29) 
o, 





其 中 ci =o (X,,Z,) 
将 式 (7. 29) 代 入 式 (7. 27) 中 ,我 们 得 到 
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gh 


EASES y,= Y, - E (Y/ð | kime | Z.) A X= 
X, -E(X 7/0, \Z,)/E(1/0,1Z;) , 式 (7.30) 变 为 © [Y:- 如 Bu]?/eio 关 于 6 最 
小 化 此 目标 函数 给 出 B, 的 一 个 (不 可 行 的 ) 有效 估计 量 : 

Ba= [F X] > XY; 


2 
A EA 
Ti 


(= 














=B+[ 2, XX /a | pi Xue 
由 标准 的 大 数 定律 以 及 Lindeberg-Levy 中 心 极限 定理 可 以 得 到 








Yn(Bun - Bo) — N(0,VW;') 依 分 布 收敛 (7.31) 
其 中 
V, = E[XX'/o!] 
(|| Šla] 
-中 | fe Ë (7.32) 
(hzl eilz) 











(7. 32) IE Æ Chamberlain (1992, p. 569 , 式 (1.9) 给 出 的 半 参 数 有 效 
边界 。 

当 o2(X,,Z,) =o*(2,) 时 , 式 (7.32) 可 以 简化 为 

Vor = E|[X, - E(X,! 2.)][X,- E(X,! Z,)]'/o?(Z,)] (7.33) 

当 g = oz? 为 一 常数 时 , 式 (7. 32) 进 一 步 缩减 为 定理 7. 1 中 的 渐 近 方差 
Vn(B-B,). 

上 述 的 估计 量 B.n 并 不 是 可 行 的 。pB。 的 一 个 可 行 的 有 效 估计 量 可 以 通过 将 
未 知 条 件 期 望 用 它们 各 自 的 核 估 计量 来 替换 从 Be 得 到 ,如 用 局 [YM6; 1 Z] = 


> yë Ks/ > K, 替换 下 YXei 1 Z,] ,其 中 心 = K((Z, - Z.) /h) ,进一步 用 克 
= X ü K, / > K, Eo ,其 中 Ks = 天 (( - X.) /h,)K( (Z, - Z.) /h,) ,而 


ü, = Ë(Y,| Z.) -— Ë(X, 1 2Z)'B 为 习题 7.1 中 定义 的 uw 的 一 个 一 致 估计 量 。 要 使 
得 可 行 的 估计 量 确实 具有 与 非 可 行 有 效 估计 量 5.* 相 同 的 渐 近 分 布 , 某 些 额外 
的 正则 条 件 是 必需 的 ,例如 密度 函数 f(x,z) 在 其 支撑 集 上 是 非 零 有 界 的 ,或 者 
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BI 8 m g 8 B 省 S is 


使 用 修剪 函数 。 我 们 需要 指出 的 是 ,Bo 的 有 效 半 参数 估计 量 是 非常 复杂 的 。 它 
需要 估计 一 个 p+g 维 ((X,,2;) 的 维 数 ) 的 非 参 数 模型 ,而 估计 po 5 gC) RH 
及 了 4 维 的 非 参 数 估计 。 于 是 , 当 误 差 为 条 件 异 方差 情形 时 ， 维 数 诅咒 "阻止 
了 研究 者 对 部 分 线性 模型 应 用 有 效 估计 方法 。 

本 章 我 们 的 讨论 只 覆盖 了 (Y,X,Z) 均 是 无 误差 地 观测 的 情形 。 对 于 存在 
变量 误差 (errors-in-variables ) 的 半 参 数 部 分 线性 模型 的 估计 , 见 Liang,Hirdle 和 
Carroll ( 1999) 以 及 Liang 和 Wang (2004) 。 


7.5 证 HJ 


7.5.1 定理 7.2 的 证 阴 
我 们 首先 给 出 Bj 渐 近 方 差 的 一 个 一 致 估计 量 , 可 以 证 明 
Š, = AEU -2X -WÈ 
$ = ZE AVA, - 3) (x, - 3) Á, (7.34) 
分 别 是 D A Y E A BR, = (y, - y.) - (X, - X,) B, ë n, 的 一 个 一 
致 估计 量 。 


自始至终 ,我 们 用 X 表示 ,用 表示 > 。 
由 Y, = X; B, + Z, + his 我 们 可 得 到 P a X; B, + Zi + Hi 其 中 À, s 
ss X AK, Ú (A = Y,X,g,u) X Sya = n” Af Bif: Sia = Sy。 使 用 


Yr = Ý, = (X, - X,)B + g, = Ë, + u, — u, , RIIE 


P, = PN = Bo + S-n Sea -le n) (7.35) 
因此 ,我 们 有 
Vn(B, - Bo) = Si PN P T (7.36) 


在 下 面 的 命题 7.1 到 7.4 ,我 们 证 明 : 

(i) aSa- a-a =) 

(ü) Se -oj 一 到 

(ii) VnS azar =0,(1) 

(iv) VnS ar = /nS, y +o, (1) N(0,1W) 
使 用 (i) 一 (iv) ,从 式 (7.36) 我 们 可 得 到 : 
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Vn(B, - B.) = Dn ANS entf ta -brai 
= S n; Mni Sa-a- +S... 7. — Saaja 
= [@, +0, (1)] |o, (1) + [VnSyw +0,(1)] +0,(1)| 
£ DNO, Y) 
= N(0,9;'Y,®;') 
这 就 完成 了 定理 7.2 的 证 明 。 口 
在 下 面 给 出 的 引 理 中 ,我 们 假定 (X;,2;) 的 支撑 是 有 界 集 来 简化 证 明 。 对 
z. =g(2,) 的 所 有 结果 也 对 é =#(2,) =E(X,12,) 成 立 。 令 =v Ru, WA 
g(2,) .€(x,,z,) fl o? (X,,Z,) ELE IX, Z REHE v 阶 导数 有 界 的 有 界 函 
数 , 尽 管 u, 的 支撑 不 需要 是 有 界 的 。 
我 们 下 面 将 使 用 缩写 记号 E (A) =E(AlX,,Z,) ,K =K((Z,-2,)/h)。 
如 果 我 们 用 来 替代 g, 那 么 下 面 的 引 理 7.1 到 7.5 成 立 。g 和 之 间 唯一 
的 不 同 是 z 是 一 个 标量 函数 而 上 是 rx1l 维 。 下 面 的 证 明 对 于 上 的 每 一 个 元 素 
仍 成 立 ,因此 对 于 向 量 函 数 & 成 立 , 因 为 r 是 有 限 的 。 
同样 ,为 了 记号 的 简洁 ,我 们 假定 h = … =h,=h。 另 外 ,我 们 可 以 把 
OCHE 的 结果 解释 为 0 ( X 局) ,把 0(h") 解释 为 0(h.…h，) ,来 得 到 我 们 没有 
施加 所 有 的 h, 是 相等 的 条 件 的 情形 下 对 应 的 结果 。 
同样 ,为 了 简化 证 明 ,我 们 在 下 面 的 证 明 中 对 况 和 六 使 用 去 一 估计 量 。 注 
意 ,不 使 用 去 一 核 估 计量 定理 7.2 仍然 有 效 。 
引 理 7.1 4 m, =g(Z,) È m, =¢(Z,) ,那么 
E,[(m, -m,)K, a] = O(h’) 
证 明 :注意 g(z) 有 有 界 导 数 。 用 Talor 展开 和 变量 替换 可 得 。 口 
引 理 7.2 
(i) Sa -., f = 0,(h” +h? (nh*) `!) (m, = g, È m, =£). 
(ü) $ e; =u, R o, H S; =0,((nh')-')。 
(让) 的 证 明 (我 们 忽略 (n -1) A n KA) : 
E[|S(sm7|] = n” > EL (ñ, - m,) f] 


= E[ (m, -m,) F] 
= n? > > E[ (m, qm m, ) K, a (m; = m, )K, a] 


il /771 
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= yn [ E[ (m, 一 m1) Ki, ] 


e + ElE,[ (m, -mi)K,.a] xE[(m-m)K,all | 
=n" {OCh h") +n0(h”)| 
= O((nh'2?2)"” +h”) 
根据 引 理 7. 1。 口 
(ii) 的 证 明 : 


ELI Sg 1] = n” > ELS] 


ELEF] 
n”? z. py Else K,,K,.] 


n > E[ eK, a] 
n'E[o (X,,Z,)K' ,] 
< Cn"'E(K:,) 


= O((nh') - 1) D 
引 理 7.3 S... =o,(n"'?)(m,==g, R m, =E). 
241 证 明 : 
Sa-mj.of = Sa-mi + Si-m -p 
= Seton a + (s. 0. ) 
E| [Siama] 1 = n? >” E[ (m, - m.)° fla: f] 
= n'E[(ñ, - m )?fio (X, Zf] 
< Cn`'E[ (m, m TRI 
= Cn™ ElSa a37] 
=n "0(1) 
= o(1) 
根据 引 理 7.2。 
因此 ， 
Siamjfaf = Sa-mi + (s.o.) = o, (n”2) 回 
引 理 7.4 


Sia-mj af = 0,(h (nh')” + h” (nhf) !2) = o (n?) 
证 明 :由 Cauchy 不 等 式 可 得 : 
188 
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m 2 K h n li Ed + = 


I Sq yi (Rl 1 S21 > 
= |O,(h°(nh°) ”' +h”)O ((nh*)"')|!? 
O (h(nh'°) 一 + h"”(nh') ~?) 
o, (n!) 口 


引 理 7.5 
(i) Spp =0,((nh?)~) 
(ñ) Spy =0,( (ah) ") 
Cii) Syp =0, (n'h) 242 
Civ) Sas =O,((nh*) ') 
(v) S; =o,(1) 
(ii) 和 (这 ) 的 证 明 同 (i) o 
(i) 的 证 明 : 


SFY = Svs + Sn 
S 
E|[S,,z]' | = n >” Eluf | 6, f, 12] 
=n'E[o'(X,,Z.)f | ó f, 12] 
< Cn`E[I ó, f, 12] 


= O(n`(nh?) `) 
O( (nèh) ~) 


根据 引 理 7. 2。 

因此 ， 

Sys = O((nh*?2)"') 口 

(ii) 的 证 明 同 (i) 。 

(iii) 的 证 明 同 (i) 。 

(iv) 的 证 明 :根据 Cauchy 不 等 式 : 

I Syel {lSyll Spil}? = |0,.((nh*)”!)0,((nh*)”)1'? 
= 0,((nh*)”) = o,(n `!) 

(v) 的 证 明 由 引 理 7. 2 得 到 。 

命题 7.1 Sadia- =n) 

HEB: EN £. = E(X,IZ,),V,=X, - E(X,IZ,) =X, -ĉo WA X, =£, +V, £, 243 
=é, +v, 

Sr-Bf ea = Seborv-f .ep 
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39 号 Ñ ES x S w l w 


= Sa-a- + wat T Si. -p/ 


= O,(h° (nh) +h”) + 0,(h(nh'®)™ +n™®h") 


"m o,(n™®) 


根据 引 理 7.2、7.3 和 7.4。 


p 
命题 7.2 S. 07, 
证 明 : 


Sra)f = See- -ry 


= Siap + Sy + Sç; +2S/ pf 23 人 7 从 


Sy +o, (1) 
= Sy +o,(1) 


= n” E VV +o,(1) DEOIR) = @, 


根据 引 理 7. 1 至 7.5 和 一 个 大 数 定律 结论 。 
命题 7.3 Ser- ajg =o, (n o 
证 明 : 


StF = SDI + Sy. -So 


ey 


o,(n 


根据 引 理 7.4 和 7.5。 


d 
命题 7.4 nS- af u NO0, P) o 
244 EW 


VYnS p.p p = In|S a pia + Sç ç -Sil 


= /nS,¿u + o,(1) 
= Sasy +o,(1) 


= n"! S VUF 5, N(0,W) 


根据 引 理 7.3 7.5 和 Lindeberg-Levy 中 心 极限 定理 。 
7.5.2 对 部 分 线性 模型 验证 定理 7.3 


我 们 将 考虑 一 个 密度 加 权 估 计量 B ,目标 函数 为 
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O (h(nh°) 1 hlinka?) 
+ 0,((nh*)™) + 0,((nh')™) 


ATA 
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4(0,;) = (1⁄2) > [Y, - È, - (X, -ÈD Bl A 
必需 的 一 阶 条 件 是 
m,(B,7) = nD (X, - X,) f,[Y, - P, - (X, - Z,)'8,1f, = 0 (7.37) 
和 
Y, - Y, = (X, - X,)'ñ, + (g, - #,) + u, - ü, (7.38) 
使 用 式 (7.38) , 式 (7. 37) 可 重 写成 


元 了 (Z, = PARAR =j ta~ ù lf, 


-FÈ -AD -DÊ -Po) =0 (7.39) 
比较 式 (7.39) 和 式 (7. 17) ,我 们 知道 
v,(7) = n“ SF 
WELEHE gdi Mft Eg Ell) =0_E(ulz) =0 #l f. 因此 ,在 
v, (7+) 中 用 z, BAR F, RAIER v, (Fo) =n'2S wo 
假定 7. 1(v) 被 满足 ,因为 
n` > (ə/ƏB,)m(W,,B,,7) = n` 2: (X, = £.) (X, = yf 


EL(X, = E(X,I Z,))(X, = E(X,I Z.))'f'] 
= E[ (9/09Bo)m( W,,Bo ,To) | 


证 明 类 似 于 命题 7. 2。 
为 验证 假定 7. 1(iv) ,我 们 有 
DAF) -ninn Sainan t SS ii 
= y, ii 人 ro) T Vaai) 
其 中 


Vae = n ”Sa7.ce-ve- 
Zn A$ ,rey = n Siit 
我 们 定义 伪 度 量 :ps (F,r) = E[v, (#7,70)] + E[v,s (F770) ?7],p(F7,T0) > 
limp,(#,7。) ,那么 
p(T7,70) = E[v, (7,70)] + E[v,,(7?,r,) ] 
< Fla 3 [6 -EVF + + (z, -Vf Hf], 


+n E[e [(g, - &) fl +0 fi] — 0 
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根据 引 理 7. 2 的 证 明 。 

因此 ,假定 7.1(iv) 成 立 。 

注意 对 局 部 线性 估计 模型 m( 9,7) 关 于 7 是 线性 的 。 所 以 随机 等 连续 性 容 
易 被 证 明 。 随 机 等 连续 性 的 性 质 实质 上 对 非 线 性 函数 族 是 很 难 验 证 的 。 

由 引 理 7. 3 ,我 们 知道 


Vn(B - B) “> N(0,M 'SM I) 
这 当然 和 引 理 7.1 一 样 ,因为 M = @,, Y, = S, 


76 2 题 


习题 7.1 证 明 式 (7.5)。 
提示 : 记 W, = - E(X,|Z,) ,有 
n (6, s-o) = [n 7 W, W; | > Wu; = A`'B, 
根据 Khinchin 大 数 定律 ( 见 附录 A) ,我 人 有 A, =n’ X W.W, -> E[ W.W, ] = 
$ ,同时 ,E[ Wu,] = 0,var(Wu) = E[oa'(X,,Z)W,W'] = W H Lindeberg- 
Levy 中 心 极限 定理 ,我 们 有 
na Y Wu, N(0,Y) 
这 一 结论 意味 着 
Vn(B -Bs) = [A,] "B, > D'N(0,B) = N(0,@"'B@`') 
习题 7.2 证 明 B 渐 近 方差 的 一 个 一 致 估计 量 由 鲍 - 少 鲍 - 给 出 ,其 中 = 
~F (X; m PIi, - X,)1,, W = =F [úü: ( X, - X,) '( X, - X,)1,] „ú; sz (y; ka 
$#,) - (X, - Å) B E u 的 一 个 一 致 估计 量 ,7 入 是 E(y,1 Z) AECI Z.) 各 
自 的 核 估 计量 ,定义 见 7.2 节 。 
习题 7.3 WEHE, 渐 近 方差 的 一 个 一 致 估量 由 多 ”yy b, 给 出 ,其 中 全 
n`' 2 (X, - K,)'(X, - X.) $ =n 2> [i ( X, - X,)'(X, - Å) fi], š, 
(Y, - F,) - (X, - X.) ' B, E u, 的 一 个 一 致 估计 量 , 了 和 是 E(y,1 Z.) A ECX, I 
Z,) 各 自 的 核 估计 量 ,定义 见 7.2 节 。 
习题 7.4 证 明 在 条 件 6-B,=0,(n 2) 下 ， 


(mh (èla) - g(z) - DHB, Ca) ) — N(0,V(2)) 依 分 布 收 全 
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其 中 如 (z) 的 定义 见 式 (7. 13) ,B,(z) 定 义 同 定理 7.1,Y(z) =<*[o?(z)/Zf(z)] 
提示 : 根据 定理 7.1,，(nh…h,)“(8(z) - g(z) - X hB,(2)) 一 
N(O,V(z)),#(z) 的 定义 见 式 (7.14)。 由 BB -B = 0(n 2), 可 以 证 明 


(z) -区 (z) = 0,(n™'”) = o, ((nhi:-h,.) 一 六 局 )。 

习题 7.5 i 247 

(i) 证 明 引 理 7.4 的 结论 可 以 被 加 强 为 : 

Sori = 0,(h (nh) +n") = 0,(n") 
(ii) 证 明 引 理 7.5( 首 ) 的 结论 可 以 被 加 强 为 :Ss ¿= 0, (n 'h 2), 
提示 :不 要 使 用 Cauchy 不 等 式 , 而 是 对 (i) 证 明 : 
B[S z g] = O (aht) + n'h”) 

XH Cii) HE EL Ss ;] =0(n h"), 

注意 在 上 面 的 加 强 中 ,条 件 7.3 可 以 用 较 弱 的 条 件 7.4 来 替代 。 

习题 7.6 证明 式 (7. 24). 

提示 :利用 Frisch-Waugh-Lovell 定理 ( 见 Davidson 和 MacKinnon (1993, 
pp. 19 一 24) ) 。 定 义 M. =1, -已 (P. P,) ' P, ,其 中 P, :— * n x (q +1) RE 
BE. i 4T280(1,Z/), HRC. 23) WEEER EMNER a + Z/ y, 然 
后 使 用 一 个 标准 的 大 数 定律 和 中 心 极限 定理 ,正如 我 们 在 习题 7. 1 的 证 明 中 所 
做 的 。 

习题 7.7 

(i) 假定 E(w 1X,,Z,) =o*(2,) ,使 用 类 似 在 推导 式 (7. 32) 时 我 们 使 用 过 
的 论证 ,证 明 B。 的 半 参 数 的 有 效 边 界 由 式 (7. 32) 给 出 。 

(ü) "4 E(w 1X,,Z,) =o?'(X,,Z,) F ,V, -Vo.x 是 正定 的 吗 ? 

提示 :回答 (ii) 不 需要 计算 ,一 个 简单 的 逻辑 论证 就 足够 了 。 
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本 章 我 们 考虑 另外 一 个 应 用 非常 广泛 的 半 参 数 模 
型 , 即 所 谓 的 半 参 数 单 指标 模型 。 该 模型 已 经 被 计量 经 
济 学 家 广泛 运用 于 各 种 情形 。 

半 参 数 单 指标 模型 具有 如 下 形式 

Y = g(X Bo) +u (8.1) 
其 中 了 是 因 变 量 ,Xe R'A fW FREZE Bt |p] ht ,B。 为 未 知 参 数 
的 gx1l 向 量 ,w 为 误差 项 ,满足 E(ulX) =0, x'B, 项 被 
称 为 “ 单 指标 ”是 因为 它 是 一 个 标量 ,尽管 x 是 一 个 向 
量 。g(…) 的 函数 形式 对 研究 者 是 未 知 的 。 这 个 模型 是 
半 参 数 的 ,本质 上 是 因为 该 模型 线性 指标 的 函数 形式 是 
已 知 的 ,而 &(…) 的 形式 是 未 知 的 。 

半 参 数 单 指标 模型 自然 地 产生 于 二 元 选择 设 定 ,出 
于 说 明 的 目的 我 们 首先 讨论 一 个 流行 的 例子 。 在 一 个 
二 元 选择 模型 中 ,如 果 人 们 愿意 接受 参数 线性 指标 来 控 
制 选择 而 不 愿意 设 定 误 差 项 的 未 知 分 布 ,这 时 人 们 就 得 
到 了 一 个 半 参 数 单 指标 模型 。 特 别 地 , 当 考 虑 一 个 二 元 
因 变 量 (7) 与 其 他 协 变量 (外) 之 间 的 关系 时 ,这 种 关系 
可 能 被 人 们 模型 化 为 

1l,Y* Sa+X'B+e,>0 
Y, = | I (8.2) 
0, =a +X 8 +=, < 0 
其 中 Y" 是 一 个 潜 变 量 。 注 意 这 里 e=Y” -E(Y* IX), 
它 不 同 于 在 式 (8. 1) 中 定义 的 uw=Y-E(YIX), 因 为 Y 
xY", 

例如 ,了 值 为 1 时 可 以 表示 为 劳动 力 参与 决策 , 即 在 
个 体 参 与 劳动 力 市 场 中 , 当 了 值 为 0 时 则 表示 个 体 不 参 
与 。 解 释 变 量 工 包含 一 组 可 以 影响 参与 决策 的 经 济 因 
素 , 如 年 龄 .婚姻 状况 、 受 教育 程度 、 工 作 经 历 和 子女 数 
目 等 。 模 型 (8.2) 假 定 是 否 参 与 劳动 力 市 场 的 决定 了 与 
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S 四 m x = s N # %: 


解释 变量 之 间 是 由 一 个 线性 参数 连接 函数 联系 到 一 起 的 。 我 们 主要 目的 是 
估计 BB, 它 反 映 了 的 变化 对 劳动 力 市 场 参 与 概率 的 影响 。 

估计 BB 的 参数 方法 要 求 给 定 误差 项 a 的 (未 知 ) 分 布 。 一 个 常见 的 假定 是 
e 服从 一 个 正 态 分 布 , 即 一 N(0,o )。 可 以 证 明 , 在 没有 其 他 识别 条 件 的 情况 
下 ,6 和 o 是 不 能 被 联合 识别 的 (更 多 细节 见 Maddala( 1986) ) 。 例 如 ,如 果 我 
们 假定 r =1 ,那么 B 是 可 识别 的 ,我 们 可 以 用 极 大 似 然 估计 来 估计 B。 然 而 , 若 
误差 项 并 不 服从 正 态 分 布 ,那么 一 般 来 说 参数 方法 将 得 到 不 一 致 的 估计 , 即 
P(Y=1lx) =E(YIx); 见 习题 8.1。 为 了 认识 这 一 点 , 令 F.( ` ) & R e 的 真实 累 
积分 布 函 数 。 由 式 (8.2) 可 得 

E(YI x) = 2,7P(7 | x) 


=] xPlY =1| x) +0 xPÇ(Y = 01 x) 

= PCY = 11 #) 

= P(a +x'8 + £ > 0) 

= P(e > - (ea + x'B)) 

= 1 -P(e < - (ca + x'8)) 

= 1 - F( - (w + x'8B)) 

= m(e + x'B) 
其 中 F(.') 是 的 累积 分 布 函 数 。 注 意 如 果 e 的 分 布 是 对 称 的 , 则 有 
F(a+xB) =1-F(-(a+x'B)) ,此 种 情形 下 我 们 有 m(:) =F(:)。 例 如 , 若 
e ~ N(0,1) (o =1) ,那么 式 (8.2) 变 成 一 个 Probit 模型 : 

E(Yl z) = P(Y =1|x) = @(e + x'B) (8.3) 

其 中 o, ) 是 标准 正 态 变 量 的 累积 分 布 函 数 。 男 一 方面 ,如 果 e 服从 对 称 logis- 
tic 分 布 ,那么 由 式 (8.2) 可 导出 logistic 模型 ,形式 为 


E(YI s) = P(Y =11=#) =- 1 


ya? 


(8.4) 


由 式 (8.3) 和 式 (8.4) ,我 们 可 以 看 出 ,对 于 不 同 的 e 的 分 布 假定 ,会 得 出 相 蜡 
的 Y=1 的 条 件 概率 的 函数 形式 。 因 此 ,P(7=11xz) = 已 (7 了 lx) 的 一 致 参数 估计 
要 求 e 正确 的 分 布设 定 。 一 个 半 参 数 单 指标 模型 则 避免 了 有 关 误 差 项 分 布设 
定 错误 的 问题 。 此 外 , 半 参 数 单 指标 模型 (8. 1 ) 比 二 元 选择 模型 更 一 般 化 ,这 是 
因为 实际 上 我 们 不 再 要 求 因 变量 必须 是 二 元 的 。 正 如 我 们 即将 在 8. 1 节 见 到 
的 , 当 g(:) 的 具体 函数 形式 未 知 时 ,位 置 参 数 a 是 不 可 识别 的 ,这 就 是 我 们 把 半 
参数 模型 (8. 1 ) 只 写作 X B 的 一 个 函数 的 原因 。 我 们 会 在 8. 1 节 讨 论 这 个 条 
件 和 其 他 的 识别 条 件 。 注 意 模型 (8. 1 ) 意味 着 E(YIx) =g(x'B,) ,于 是 ,x 只 通 
过 线性 组 合 x'B, 来 影响 y, 这 种 关系 由 连接 函数 g(') 来 刻画 。 
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我 们 在 这 里 要 强调 的 是 ,与 部 分 线性 模型 一 样 , 半 参 数 单 指标 模型 是 一 种 
可 供 选 择 用 来 减轻 维 数 诅 吕 影响 的 方法 。 男 外 ,我 们 强调 了 可 以 是 连续 的 或 者 
离散 的 , 即 没有 理由 限定 了 为 一 个 二 元 变量 。 


8.1 识别 条 件 


对 于 半 参 数 单 指标 模型 ,我 们 有 
E(YI x) = g(x'pB,) 

Ichimura( 1993 ) , Manski ( 1988 ) 和 Horowitz( 1998 , pp. 14—20 ) 提供 了 隐 含 
在 半 参 数 单 指标 模型 中 的 识别 条 件 极 好 的 直观 解释 ( 即 在 这 一 系列 条 件 下 未 知 
参数 向 量 B。 和 未 知 函 数 &(') 能 被 明智 地 估计 出 ) 。 我 们 简要 讨论 一 下 这 些 条 
件 ,再 把 其 概括 为 一 个 命题 。 

首先 ,g(: ) 不 能 是 常数 方程 ,否则 B。 显然 不 能 被 识别 。 其 次 ,与 线性 回归 
的 情形 一 样 ,x 的 不 同 组 成 部 分 不 能 具有 完全 线性 关系 (完全 多 重 共 线性 ) 。 另 
一 个 限制 是 * 至 少 包 含 一 个 连续 随机 变量 。 着 * 只 含有 离散 变量 ,如 某 些 0-1 
虚拟 变量 ,那么 x 的 支撑 集 是 有 限 集 , 对 于 任 一 向 量 B, 标 量 v=x'B 的 支撑 集 也 
是 有 限 集 。 那 么 ,显然 存在 无 穷 多 的 函数 g(*), 它 们 的 不 同 在 于 B 向 量 , 即 
g(x'B) =E(YIlx)。 这 是 因为 E(Ylx) =g(x'B) 只 给 出 了 关于 未 知 函 数 g(:) 的 
有 限 个 约束 , 故 存在 无 穷 多 个 p 和 g(:) 的 选择 使 得 它们 满足 E(Ylx) =g(x'ß) 
给 出 的 有 限 个 约束 。 对 此 的 一 个 详尽 的 例子 和 说 明 见 Horowitz( 1998) 。 同 样 ,x 
也 不 能 含有 常数 ,也 就 是 说 ,Bo 不 能 包含 位 置 参数 ,Bo 仅仅 在 一 定 规模 内 是 可 识 
别 的 。 这 是 因为 ,对 任 一 非 零 常 数 a, Aa, 以 及 对 任 一 g(* ) 和 固定 向 量 B, 我 们 
总 能 找到 另外 一 个 函数 , 称 之 为 gp,(*) ,定义 为 g(a +asx'B) =g(x'B) ,所 以 ， 
没有 位 置 和 规模 约束 (正规 化 )B, 不 能 被 识别 。 一 个 常用 的 正规 化 方法 是 x 不 
含有 常数 , 即 所 谓 的 位 置 归 零 化 (location normalization) 。 对 于 所 谓 的 尺度 归 一 
化 (scale normalization) ,一 种 方法 是 假定 向 量 B 具有 单位 长 度 , 也 即 181 =1， 
其 中 Bl = | 2 | 是 B 的 欧 几 里 得 范 数 (长 度 )。 男 一 种 方法 是 假定 x 的 
第 一 个 元 素 具 有 单位 系数 ,而 且 第 一 个 元 素 为 连续 变量 。 

我 们 把 上 述 条 件 概 括 为 以 下 命题 。 

命题 8. 1 ( 单 指标 模型 的 识别 ,) 对 于 半 参 数 单 指 标 模型 (8. 1) ,识别 Bo 
Mge) ER: 

(i) x 不 含有 常数 ( 截 距 ), 且 x 必须 含有 至 少 一 个 连续 变量 。 此 
外 ,上 Bo =1。 

Cii) g(') 是 可 微 的 且 在 x'B。 的 支撑 集 上 为 非常 数 函数 。 
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(ii) 对 于 x 的 离散 元 ,改变 这 些 离散 变量 的 赋值 不 会 把 X'B 的 支撑 集 划 分 
成 分 离 的 子 集 。 

我 们 已 经 讨论 过 当 x 只 含有 离散 变量 时 ,pB。 和 g(:) 是 如 何不 可 识别 的 。 
然而 , 当 g(:) 被 假定 为 增 晴 数 时 ,人 们 可 以 得 到 8 中 元 素 的 可 识别 界限 。 当 x 
的 所 有 元 素 是 离散 时 ,对 如 何 刻画 界限 的 更 详尽 讨论 见 Horowitz( 1998 , pp. 17 一 
20), 


8.2 fh 计 


8.2.1 Ichimura 方法 


本 节 我 们 回顾 Ichimura( 1993) 提出 的 半 参 数 估计 方法 。 
若 &(') 的 函数 形式 是 已 知 的 , 式 (8.1) 就 变 为 标准 的 非 线性 回归 模型 ,我 
们 就 可 以 用 非 线性 最 小 二 乘 方法 来 估计 B, ,关于 有 最 小 化 
> [Y, - z(X/B) ]° (8.5) 


g( `) 函数 形式 未 知 的 情形 下 ,我 们 首先 要 估计 g(') 。 然 而 , 核 方法 不 能 直 
接 估计 g(X B) ,因为 不 仅 g(:) 未 知 ,而 且 B。 也 未 知 。 然 而 ,对 于 一 个 给 定 的 
B 值 我 们 能 通过 核 方法 估计 
G(X/8) Z E(Y,I| X'B) = E[g(X/B,) | X/8] (8.6) 
其 中 后 一 个 等 式 是 由 于 E(u,1X,) =0, 则 对 所 有 B, 有 E(ulX'B) =0。 
注意 当 B =pB。 时 ,有 CG(XB) = z (XB,), 一 般 来 说 ,车 BB, W 
C(X'B) 关 g(X'Bo)。C(X'B) 的 一 个 去 一 非 参 数 核 估计 量 如 下 
| (nh) S y (58 - SE) 
C_  (X;pg) = E_.(Y,| X'p) = 一 二 一 一 


8.7) 
p-.( X, p) i 


其 中 PCB) = (nh)™ > K(ZE-AB) ， 


j=1, ,zi 


Ichimura( 1993 ) 建议 用 式 (8.7) 中 的 G_,(X%B8) 来 估计 式 (8.5) 中 的 
g(X'B) ,用 ( 半 参 数 ) 非 线性 最 小 二 乘法 来 选择 B。 然 而 这 里 存在 一 个 技术 问 


题 ,就 是 式 (8.7) 中 有 一 个 随机 分 母 , 即 户 ,(XKB) = (nh) Y K| 28 B) . 


Ichimura H — f 9 RROKA R p. (XB) 很 小 的 值 。 今 p(x'B) 为 xB 的 概率 
密度 函数 ,定义 集合 4, 和 4, WF: 
A, = |x:p(x'ß) 三 6, 所 有 Be B| 
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其 中 58 >0 是 一 个 常数 ,B 是 及 "中 的 一 个 紧 子 集 。 
A, = lx; |x — x || <2h, $! x" e A, 
集合 4; 保证 了 当 xe 4, 时 , 式 (8.7) 中 的 分 母 不 会 距 零 太 近 。 集 合 A, EA, 
稍 大 一 些 , 当 n 一 w ,h 一 0 时 ,4, 收缩 为 A, 
Ichimura( 1993) 建议 通过 最 小 化 下 列 目标 函数 来 选择 B: 


S,(8) = > [Y, - G(XiB)]w(X)1(X; e A,) (8.8) 


其 中 6G_,(X,B) 是 式 (8.7) 中 定义 的 ,w(X,) 是 一 非 负 的 权重 函数 ,1(: ) 是 通常 
的 示 性 函数 。 也 就 是 说 ,1(X,e 4,) 是 一 个 借 势 函数 , 当 X,e A. 时 其 值 为 1, 反 
之 则 为 0。 

修剪 函数 保证 了 核 估 计量 中 的 随机 分 母 有 大 概率 为 正 值 ,这 样 就 简化 了 渐 
近 分 析 。 

定义 6 为 从 最 小 化 式 (8.8) 中 得 到 的 关于 p, 的 半 参 数 估计 量 。 为 了 推导 局 
的 渐 近 分 布 , 以 下 条 件 是 必需 的 : 

假定 8.1 集合 4; ERE, MAX w) EA 上 为 正 且 有 界 。 定 义 集合 
D.=|z:z=x'B,BeB,xeA|, 令 p(:) 为 zeD, 的 概率 密度 函数 ,对 所 有 的 ze 
D,,p( ` ) 是 有 界 的 且 小 于 一 个 正 的 常数 。 

假定 8.2 g(:') 和 P(:) 关 于 z=x'B 是 三 阶 可 微 的 。 其 三 阶 导 数 对 于 所 有 
的 zeD,, 在 B 上 均 为 Lipschitz 连续 的 。 

假定 8.3 核 函数 为 有 界 二 阶 核 ,具有 有 界 支撑 集 , 二 阶 可 微 , 且 其 二 阶 导 
数 是 Lipschitz 连续 的 。 

假定 8.4 对 某 些 m=3,El1Y"| <o 。 对 所 有 xe4;,cov(Ylx) 有 和 界 且 远离 
X, 4 n— e BF, # qln(h)/[nh'''/(m -1)]—0 和 nh' 一 0。 

Ichimura(1993 ) 证 明 如 下 结果 : 

定理 8.1 在 假定 8.1 至 8.4 的 条 件 下 ， 

Vn(B - Ba) — N(0,0,) 依 分 布 收敛 
其 中 02,=V 2 一 , 且 
5=Elw(X)o (X,)(g:" ) (X, - E, (X,IX,'B,)) 
XX = E,(X,IX,'B,))'! 

其 中 gi” = [9g(v)/90]1,.xg ,E14(Xi1v) =E(X,IX'B,。=v) ,其 中 x RA X, 关于 
X cA, 的 条 件 分 布 , 且 

V = E[w(X,) (gf)? (X; - E, (X, | X;Bo)) (X; - E(X; | X;Bo))'] 

N, 的 一 个 一 致 估计 量 如 下 

0, = V Sý 
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其 中 六 = n” Y e(X,) (8 (X16) )? (X, - É(X, | X.8))(X, - ÊCX; 1 XB))’, 
Ë = n ` u(X,)ü (g) (XB)) (X, - E(X, | X.8))(X, - E(X | XB))' i = Y, - 


Bg(X'B),g'" (X 8) = [og.(XB) /XB] | p-f ë. (X B) 如 式 (8.7) 中 所 定义 
的 ,E(X,| X p)' = 2, AELA, - Z,)'B]/ 2, KI (2, - X,)'Bl o 

定理 8.1 的 证 明 非常 具有 技巧 性 ， 我 们 推荐 读者 去 参考 Ichimura( 1993) 。 
Horowitz( 1998) 给 出 了 证 明定 理 8. 1 的 一 个 漂亮 的 启发 性 提纲 , 仅 使 用 了 人 所 
熟知 的 Taylor 级 数 方法 ,一 个 标准 的 大 数 定律 和 Linderberg-Levy 中 心 极限 定理 
来 论证 。 

"4 E(u lX.) =0° 为 一 个 常数 ( 即 u, =Y,-g(X,'B。) 有 条 件 同方 差 ) 时 ,可 
以 证 明 ,w(X,) 的 最 优选 择 为 w(X,) =1, 在 这 种 情况 下 ,在 0, 是 半 参 数 方差 下 
(Xe A, 条 件 下 ) 的 意义 上 ,6 是 半 参 数 有 效 的 。 

然而 ,一 般 来 说 E(w?1X,) =o (X,) , 且 B 的 半 参 数 有 效 估 计量 有 一 个 复杂 
的 结构 。 若 假定 E(w 1X;) =° (X'B。), 也 即 条 件 方 差 只 依赖 单 指标 ,那么 
w(X,) =1/o*(X'B,) 的 选择 能 导致 一 个 B, 的 半 参 数 有 效 估计 量 。 但 是 ,实践 
中 ,由 于 o*(X'B,) 是 未 知 的 ,以 上 权重 函数 的 选择 是 不 可 行 的。 因此 人 们 可 以 
采取 如 下 的 两 步 方 法 。 假 定 条 件 方差 只 是 XB。 的 函数 。 在 这 种 情形 下 ,第 一 
步 , 先 用 w(X,) =1 来 得 到 po 的 一 个 Vn 一 致 估计 量 ,比如 B。 然 后 ,运用 = 
Y, -8(X'Bo) 可 以 得 到 o? (XB) 的 一 个 一 致 的 非 参 数 估计 量 , 比如 
67(X'Bo) =var(i.1X.B。)。 第 二 步 ,选择 w(X) =1/6*(X'B。) 来 再 次 估计 bo 
如 果 在 ve D,(D, 为 X'B。 的 支撑 集 ) 上 ,0*(v) - o? (v) 以 一 特殊 速率 一 致 收敛 
于 0, 那 么 相应 的 两 步 估 计量 8, 将 是 半 参 数 有 效 的 。 

以 下 我 们 忽略 修剪 集 4;、 权 重 函 数 w(* ) ,并 同样 假定 关于 B 最 小 化 ,事实 
上 是 在 一 个 收缩 集 B, = |B: || B-B l <cCn | 上 进行 的 最 小 化 ,其 中 C >0 为 
一 常数 。Hairdle ,Hall 和 Ichimura( 1993) 采用 了 这 种 方法 。 要 求 8 位 于 一 个 集 
合 有 B -Bo。= 0(n“"”) 的 假定 可 能 显得 过 于 强 了 ;然而 ,给 定 Ichimura(1993 ) 的 
结果 ,我 们 知道 6 是 6B 的 一 个 Vn 一 致 估计 量 , 我 们 可 以 看 到 5(B) 关 于 BB 的 最 小 
fH IEE B, 为 0(n 2) 的 假定 。 由 这 个 假定 以 及 对 某 些 C, > C, > 0, 有 
heH, =|h; Cin “<h<C,n | ,可 以 建立 定理 8. 1 的 另 一 种 证 明 。 首 先 ， 
可 以 证 明 非 参数 残 差 平方 和 可 以 写成 (我 们 略 去 w, =1 和 修剪 示 性 函数 来 使 符 
号 简单 化 ) 
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$,(B) = E5 [Y - (XB) I? = S(B) +T, +0,1) — (8.9) 
其 中 S(B) =m Y [Y, - G(X;8)]° ,其 中 


Z. = z > [ec_ (下 Bo) - z(Xí B.) ]° 

是 独立 于 的 一 项 上 且 o,(1) 表 示 在 Be B, 中 一 致 等 价 于 阶 数 为 (1) 的 项 。 式 
(8. 9) 的 证 明 可 在 Hirdle 等 (1993 ) 中 找到 ,这 事实 上 是 考虑 了 一 个 更 一 般 的 设 
定 , 其 中 他 们 用 交错 鉴定 法 来 同步 选择 B A h. 

在 8. 12 节 我 们 证 明了 S(B) =0(1)。 因 此 ,对 6B 来 最 小 化 式 (8.9) 渐 近 等 
价 于 最 小 化 5(B)。 令 B 为 最 小 化 5(B) 的 B 值 ,那么 通过 Taylor 展开 ,容易 证 明 
( 见 8.12 节 )8 满足 下 面 一 阶 条 件 : 

W,(8 - B,) = V, + (s. o. ) (8.10) 

其 中 

Wo = X ulg (XBo)] LX, - E(X, | XBo)][X, - E(X, | X; 8,)'] 


i=l 


V, = Yu f XB) LX, - E(X, | XB) ] 


因此 ,通过 一 个 标准 的 大 数 定律 和 中 心 极限 定理 ,我们 有 


VRB-Bo) = (W,/n) nV, +o (1) HNOM) — (8.11) 

其 中 R, 和 OQ, 相同 ,除了 将 其 中 的 w(X,) 替 代为 1. 
到 目前 为 止 ,我 们 的 正规 化 约束 选择 均 为 外 81 =1。 我 们 也 可 以 根据 需要 
来 选择 其 他 的 正规 化 方法 。 不 是 假定 B 具有 单位 长 度 ,我们 可 以 假定 B 的 首 元 


是 一 连续 变量 , 记 为 = (X X)’, X, 表示 XX, 去 掉 首 元 后 剩 下 的 部 分 。 同 
样 ,定义 BB 为 ,的 系数 , 即 B=(1,B')'。 这 样 我 们 可 以 选择 B 来 最 小 化 

5,(B) =n” [Y, -G(X + X;8) ]°*w(X,)1(X, e A,) 
在 此 种 情形 下 可 以 证 明 Yn(B - 8 ) 的 渐 近 方差 为 人 0，= V;'X,V;' ,其 中 

X,= E|w(X,)o*(X,) (gt) 
x CE = BtA RI AEAEE ND 

Hp gi” =[6g(v)/9B]1,-xg,E1(Xi1v) = E( X, IXIB =v) HE Xe A, 条 件 下 ， 
X4 具 有 XX 的 分 布 , 且 V,=E[W(X,) (g) (X, - E ( X, 1X/'p)) ( X, - 
E,( XIX.'B))']。 
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8.3 的 直接 半 参 数 估计 量 


Ichimura( 1993 ) 的 半 参 数 非 线性 最 小 二 乘 估计 量 在 实际 中 计算 可 能 会 非常 
麻烦 ,这 是 由 于 目标 函数 可 能 是 多 峰 的 ,于 是 就 需要 广泛 搜索 来 排除 局 部 极 小 
值 。 本 节 讨 论 一 个 不 需要 迭代 求解 最 优化 问题 的 一 个 直接 估计 方法 。 这 样 计 
算 的 代价 会 比 Ichimura 提出 的 半 参 数 非 线性 最 小 二 乘 方法 要 小 ;但 是 这 并 不 是 
没有 代价 的 ,我 们 将 会 在 本 节 最 后 讨论 直接 估计 方法 带 来 的 一 些 问 题 。 


8.3.1 平均 导数 估计 量 


4 X, 为 连续 变量 的 向 量 时 ,我 们 也 可 以 通过 估计 条 件 均值 函数 E(YIx) 的 
平均 导数 来 估计 单 指标 模型 。 由 (YIx) = g(x'Bo) ,我 们 得 到 
oE(Y|x) 


Jx & (x'Bo)Bo (8.12) 
因此 , 式 (8. 12) 的 平均 值 ( 平 均 导 数 ) 与 B, 成 比例 , 即 
E[l 22] = E[g' (x'p,)]B, = CP, (8.13) 
Ox 


也 可 以 考虑 一 个 加 权 平均 导数 形式 
E| wla) EZIO] = Blu)e (xB,)1B, = CB (8.14) 
它 同样 也 与 B, 成 比例 。 


在 核 函数 是 可 微 的 假定 条 件 下 ,人 们 可 以 通过 估计 平均 导数 
E[ƏE(Ylx)/àƏx] 3648 TF Bo ,如 


~ 


l = OE(Y¥,| X,) 
Bn Ly (8.15) 


其 中 下 标 ave 表示 这 是 平均 导数 估计 量 , E(Y,X,) = 5 YK,/ X K HE(Y,1X,) 
的 局 部 常数 核 估计 量 ,K, = K( (X, - 艺 )a) 是 一 个 乘积 核 函 数 ,a 是 平滑 参数 向 
量 。 若 选取 181 = 1 作为 正规 化 标准 , 则 尺度 归 一 化 可 以 通过 B,. 除 以 
Bal = 六 尿 .,} ”来 得 到 :着 选取 首 个 变量 的 系数 为 1 作为 正规 化 标准 ， 


则 可 以 通过 B,. 除 以 B,.. ,来 正规 化 。 


对 B,. 渐 近 分 布 求 导 所 遇 到 的 一 个 困难 是 随机 分 母 的 存在 ,这 样 就 导致 在 
某 些 点 上 分 母 可 以 任意 接近 于 0。Rilstone( 1991 ) 提出 用 一 个 修剪 函数 来 避免 


258 


259 


201 


260 


202 


非 参数 计量 经 济 学 


S i s K 能 ñ X 


“小 分 母 问 题 ” ,并 建立 式 (8. 15) 中 定义 的 B ,的 Vn 正 态 性 结论 。 

当 在 廊 的 支撑 集 边界 上 有 f(x) =0 时 (例如 ,如 果 互 具有 无 界 支撑 ) ， 
Powell,Stock 和 Stoker( 1989 ) 建议 使 用 式 (8. 14) 定 义 的 加 权 平 均 导 数 估 计量 ， 
其 中 权 函 数 wo(*) =f(x)。 那 么 ,由 分 部 积分 可 以 得 到 

68= E[f/(X) J]ge'" (X)] 


= Je F x) dx 
E JI ECZ Po?) (aya 


= 0 - 2 g(x'B f(s)f" (a) da 


= -2E[g(X'B,)f'" (X)] 
=- 2E[ Yf (X) ] (8.16) 


可 以 用 5 = - Z Y Y, (X) 来 估计 式 (8. 16)。 (8.17) 
Jü f (XX,) 为 一 g x 1 向 量 ,其 第 s 项 为 2(X)/90X, = n Y a kU ( (X, - 


X,)/a,) |] a7 kX, - XX,/a,) 。 为 了 避免 与 半 参 数 指标 函数 估计 中 的 平滑 参 


že h RA RERA a 来 表示 平均 导数 估计 量 中 的 平滑 参数 。 注 意 通过 选 
择 w(x) =f(x) ,定义 在 式 (8.17) 中 的 5 不 再 具有 随机 分 母 ,于 是 也 就 不 再 需要 
引入 修剪 宛 余 参数 。Hiirdle 和 Stoker( 1989) 考虑 了 基于 未 加 权 量 有 [gg (X) ] 
= -2E[ Yf/''(X)/f( X) ] 的 平均 导数 估计 量 ,他 们 使 用 了 修剪 方法 来 避免 小 随 
机 分 母 的 问题 。Powell 等 (1989 ) 建立 了 定义 在 (8. 17) 式 中 的 S 的 Yn 正 态 性 
结果 。 

如 正文 所 述 ,关键 的 假定 是 在 蕊 支撑 集 的 边界 上 有 J(x) =0。 其 他 的 平滑 
条 件 和 上 矩 条 件 可 以 参考 Powell 等 (1989 ) ,或 者 参考 Horowitz( 1998 ,pp. 37 一 38 ) 
中 的 条 件 (a) 一 (d) 。 这 些 条 件 包 括 了 未 知 函 数 CO) ER FRE, 


v 阶 核 函 数 的 运用 ,以 及 当 n— e Bf, nY a 一 0 与 n(a…a) Y aoo , B 


后 两 个 条 件 要 求 " > 1 +g/2。 由 于 g 宇 2, 这 就 要 求 使 用 高 阶 核 函 数 (v>2)。 在 
一 个 单 指标 模型 情形 下 ,我们 要 求 g 三 2, 否则 8 是 不 可 识别 的 。Powell 等 
(1999 ) 证 明了 以 下 结果 : 

Vn(8 - 6) — N(0, Nyns) (8.18) 
HP Rows =4BE[o (X)f'(X)f'UU(X)'] +4var(f(X)g'"(X))。 正 规 化 的 B 向 
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量 可 由 8/161 得 到 。 

式 (8. 18) 的 证 明 需 要 用 到 可 变 核 函 数 的 U 统计 量 分 解 。( 一 些 相 关内 容 
见 附录 A.) 

在 第 2 章 我 们 讨论 了 使 用 局 部 多 项 式 方法 来 估计 一 个 未 知 条 件 期 望 函 数 


和 它 的 导数 。 由 于 在 式 (8. 15) 中 给 出 的 B ,是 基于 E(YIlx) 的 一 个 局 部 常数 核 
估计 量 的 导数 ,我们 也 可 以 用 局 部 多 项 式 方法 来 估计 aE (Y1x)/ax。Li,Lu 和 
Ullah (2003) 考虑 了 这 种 方法 , 令 &'"(X,) 表 示 g'"(X,) 的 核 估计 量 ,通过 一 个 
m 阶 局 部 多 项 式 回 归 可 得 到 它 。Li,Lu 和 Ulah 建议 使 用 


B... = ya (x) (8.19) 


来 估计 B=E[g"" (下) ]。 这 里 用 B,,. 直 接 估计 BB, 并 没有 假定 在 X 的 支撑 集 边界 


上 有 f(x) =0。 在 这 种 意义 上 其 与 式 (8. 15 ) 中 定义 的 B 相似 。 然 而 不 使 用 在 
其 支撑 边界 上 f(x) =0 的 条 件 的 代价 是 ,正如 Li, Lu 和 Ullah 指出 的 ,人 们 通常 
假定 的 支撑 集 为 一 个 紧 集 , 且 密 度 函 数 1(X) 是 有 界 的 并 小 于 在 的 支撑 上 
的 一 个 正 的 常数 , 即 这 些 条 件 排 除了 无 界 支撑 集 的 情形 。 在 支撑 集 无 界 的 情形 
下 ,需要 引入 一 个 修剪 函数 来 剔除 值 很 小 的 随机 分 母 。 在 有 界 支 撑 和 在 其 支撑 
上 密度 函数 有 界 非 零 的 假定 下 ,就 不 再 需要 引入 修剪 函数 。Li,Lu 和 Ullah 使 用 
了 Masry( 1996a ) 的 一 致 收敛 速度 结果 来 处 理 随 机 分 母 问 题 。 在 Powell 等 
(1989 ) 中 使 用 的 类 似 的 平滑 条 件 和 和 矩 条 件 下 ,他 们 的 有 界 假定 被 替换 为 紧 支 撑 
及 密度 函数 在 其 支撑 上 是 有 界 非 零 的 假定 ,使 用 一 个 二 阶 核 且 n 一 % 时 ， 


nY a?” 一 0,n(ai…a,) > a) /In(n) — o ,其 中 中 为 局 部 多 项 式 估计 中 多 项 
趟 的 阶 数 ,9 为 的 维 数 ,Li,Lu 和 Ullah 建立 了 如 下 结论 : 
VN(B... - B) — N(0,@ + var(g™ (X))) (8. 20) 
HP D =EL (X) (Xf (X) '//2(X)],8=E[gU(X)]. 
6 与 B... HAMRE h F S ii 6 = E[f(X)g'U (X)] ,而 估计 的 是 
B=E[g'"(X)]。 然 而 上 面 给 出 的 5 与 B,.. 均 未 正规 化 为 有 单位 长 度 , 如 果 应 用 
正规 化 ,由 56 与 B.,. 得 到 的 正规 化 向 量 的 方差 将 是 相同 的 。 这 就 是 人 们 所 期 望 


的 Newey(1994b) 给 出 的 结论 ,他 证 明了 半 参 数 模型 中 yn 一 致 估计 量 的 渐 近 方 
差 与 使 用 的 特定 的 非 参数 估计 方法 是 无 关 的 ,事实 上 ,Newey 也 证 明了 如 果 人 
们 使 用 非 参数 级 数 方法 而 不 是 核 方法 时 ,平均 异 数 估计 量 的 渐 近 方差 仍然 是 相 
同 的 。 我 们 在 第 15 章 讨论 级 数 方法 。 

式 (8.20) 的 证 明 与 式 (8. 18) 的 证 明 类 似 , 都 使 用 了 Powell 等 (1989 ) 发 展 
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出 的 可 变 核 的 忌 统计 量 分 解 ,也 都 广泛 应 用 了 Masry (1996a) 中 的 结果 。 这 里 
我 们 不 重复 在 Li, Lu 和 Ulah ( 2003 ) 包含 的 详细 证 明 , 我 们 只 给 出 一 个 式 


(8.20) 证 明 的 简短 提纲 来 给 读者 一 个 直观 的 理解 。 定 义 B =n Y gX), 
我 们 记 
n (B... - B) = Vn(B... - B) + Vn(B - p) 
注意 由 Lindeberg-levy 中 心 极 限定 理 有 ,Vin(B-B)-SN(0,var(g'"(X)))。 可 以 
WEIG, -B)_SN(0, 四 ) 依 分 布 收 化 。 最 后 ,以 上 两 项 是 渐 近 独立 的 。 因 此 ， 
Vn(B, - B) — N(0,@ + var(g™ (X))) 依 分 布 收敛 

Hristache ,Juditsky 和 Spokoiny (2001 ) 提出 一 个 迭代 过 程 来 改进 原始 的 ( 非 
和 迭代) 平均 导数 估计 量 。 他 们 的 想法 是 用 向 量 B 的 先 验 信息 来 改进 梯度 估计 的 
质量 ,通过 在 小 的 方向 导数 方向 上 扩展 一 个 加 权 核 ,他 们 也 证 明了 整个 过 程 需 
要 至 多 2log(n) 次 近代 。 最 终 得 到 的 估计 量 在 相对 适度 的 假定 下 是 Yi 一致 的 。 


8.3.2 g(*) 的 估计 
我 们 用 B, 来 表示 B 或 者 5 一 个 一 般 的 Vn 一 致 估计 量 ( 即 它 可 以 为 前 面 所 
定义 的 BE B.B... 6. 或 者 5) 。 有 了 p. ,我 们 就 能 用 
` (X, - xz)'8, 
a 5) 
ë(x'B,) = EB (8.21) 
j” x) P, 
gs 
来 估计 E(Ylx) = g(xB,) 。 

HF, -B。= 0,(n™“), 其 收敛 于 零 的 速度 比 标 准 非 参 数 估计 量 要 快 ， 
8&8(x'B, ) 的 渐 近 分 布 与 B, 被 p, 替代 的 情形 相同 。 因 此 ,第 2 章 定 理 2.2 包括 了 
这 种 情况 ,其 中 g=1( 由 于 v=x'B, 为 一 标量 )。 因 此 ,我 们 有 

推论 8.1 假定 B, -B= 0,(n 72) ,在 与 定理 2.2 给 出 的 类 似 的 条 件 下 ， 
我 们 有 

Vnh[ë(x'8,) — g(z'B,) — h’ B(x'0,)] S N(O0,kro’ (x'B,) /f(x'B,) ), 

(8.22) 
其 中 B(X'B, ) 定 义 来 自 式 (2.8)。 

上 面 讨论 的 直接 平均 导数 估计 方法 只 适用 于 x 为 gq 维 连 续 变 量 向 量 情 形 ， 

这 是 由 于 对 离散 变量 取 导 数 没 有 意义 。Horowitz 和 Hirdle(1996) 讨 论 直 接 ( 非 
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和 迭代) 估计 怎样 可 以 扩展 到 在 x 的 某 些 元 素 为 离散 时 的 情形 。Horowitz(1998 ) 
给 出 了 此 方法 的 一 个 很 好 的 综述 。 有 关 详 细 讨 论 我 们 推荐 读者 参考 Horowitz 
和 Härdle( 1993 ) 以 及 Horowitz(1998 , pp. 41—48)» 

直接 平均 导数 估计 方法 的 优点 是 人 们 可 以 不 使 用 非 线性 迭代 过 程 而 直接 
来 估计 Bo 与 g(x'B。)。 这 样 带 来 的 计算 简便 化 在 大 样本 情形 下 非常 有 吸引 力 ; 
然而 , 随 之 产生 了 一 个 潜在 的 有 限 样 本 问题 。 直 接 估计 量 在 初始 估计 阶段 都 涉 
及 了 多 维 非 参 数 估计 ,而 我 们 知道 非 参 数 估计 量 存在 维 数 诅咒 的 问题 。 在 第 二 
阶段 ,多 维 非 参 数 估计 量 对 所 有 样本 点 进行 平均 ,得 到 一 个 B, 的 Yn 一 致 估计 
量 。 由 于 第 二 阶段 的 估计 具有 参数 的 速度 的 收敛 性 , 且 x 的 维 数 不 影 响 第 二 
阶段 得 到 的 平均 导数 估计 量 的 收敛 速度 ,因此 , 渐 近 来 说 , 维 数 诅 叶 问题 不 存在 
了 。 但 是 ,在 有 限 样本 的 实际 应 用 中 ,除非 样本 容量 非常 大 ,否则 在 第 一 阶段 不 
准确 的 估计 可 能 会 影响 第 二 阶段 估计 量 的 准确 性 。 所 以 ,在 样本 容量 相当 大 
时 ,直接 估计 由 于 其 计算 上 的 简便 更 具有 吸引 力 。 然 而 在 小 样本 情形 下 ， 
Ichimura( 1993 ) 的 迭代 方法 可 能 更 具有 吸引 力 , 这 是 因为 其 避 开 了 高 维 非 参 数 
估计 的 使 用 。 

Carroll ,Fan ,Gijbels 和 Wand 和 (1997) 提 出 了 一 个 与 第 7 章 内 容 ( 即 部 分 线 
性 模型 ) 和 本 章 内 容 ( 即 单 指标 模型 ) 都 相关 联 的 方法 。 特 别 地 ,Carroll 等 考虑 
了 一 个 广义 的 部 分 线性 单 指标 模型 的 问题 ,这 种 模型 作为 一 种 特殊 情形 既 包含 
了 部 分 线性 模型 也 包含 了 单 指标 模型 。 


8.4 窗 宽 选 择 


8.4.1 Ichimura 方法 的 窗 宽 选 择 


Ichimura( 1993 ) 方 法 通过 (和 迭代) 非 线性 最 小 二 乘 方法 估计 B, 其 中 未 知 函 
数 g(X'Bo) 用 式 (8.7) 中 定义 的 非 参 数 核 估计 量 &(X'B) 来 代替 。 选 择 的 平滑 
参数 要 满足 条 件 nh’ —0, H4 næ ht In(h)/[nh t ]—0, XE v3 是 
一 正 整 数 ,其 具体 值 依赖 于 了 的 一 定数 目 有 限 矩 的 存在 以 及 未 知 函 数 g(*) 的 
光滑 性 。 可 允许 的 平滑 参数 取 值 范围 考虑 到 了 最 优 平滑 , 即 h =0(n-“)。 因 
此 ,Hirdle 等 (1993 ) 建 议 用 Ichimura 的 非 线 性 最 小 二 乘 交 错 鉴定 法 来 同步 选取 
六 和 B。 特 别 地 ,他 们 建议 最 小 化 
M(B,h) = > [7 - G. (X IB,h)]'1(X, e A,) (8.23) 


来 同步 选取 和 BB。 其 中 6G_,(XB,h) =G_,(XiB) 如 式 (8.7) 所 定义 ,而 4 B 
前 面 所 介绍 的 修剪 集 。 
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在 一 些 正 则 条 件 下 ,包括 了 具有 任意 阶 的 有 限 矩 ,使 用 二 阶 核 函 数 , 未 知 函 
数 g(x'B) 和 p(x'B) 是 二 次 可 微 的 ,f(x) 在 4; 上 是 非 零 有 界 的 ,以 及 假定 
BeB.1B:IB-Bol<Cn- “|, 其 中 heH,=[Cn”“,C,n"“],Co,C,>C 是 三 
个 正 的 常数 ,然后 ,Hirdle 等 (1993 ) 证 明了 M(B,h) 能 分 解 为 如 下 形式 

M(B,h) =M(B) +T(h) +| 比 7T(h) 有 更 小 的 阶 且 不 依赖 于 6B 的 项 | 

+ | 比 M(B) 和 7T(h) 有 更 小 的 阶 的 项 | (8. 24) 
其 中 
M(B) = > [Y,-g(XB)]1(X, e A,) 


T(h) = 2, [ë (I.5, g( XB,) FP 


H. G_,(X'B,) 如 式 (8.7) 所 定义 但 是 将 B 替换 为 Bu。 

因此 ,对 (B,h) e B, x H, 同步 最 小 化 M(B, h) 等 价 于 先 对 Be 8B, 最 小 化 
M(B) FX} h e HH, 来 最 小 化 7T(h)。 

令 (B,h) 表 示 最 小 化 式 (8.23) 得 到 的 估计 量 。B 的 渐 近 分 布 由 定理 8. 1 给 
出 ,对 于 hh, 由 于 使 用 的 是 二 阶 核 函数 ,用 第 2 章 讨论 的 非 参数 估计 量 的 标准 均 
方 误差 计算 容易 证 明 非 随机 目标 函数 E[7T(h) ] 的 首 项 等 于 Aih* +A, (nh), 
其 中 A, 与 A, 是 两 个 正 的 常数 ,因此 ,h,=[4/(44,)] “n=0(n-“) 最 小 化 
TA,h‘ +A,(nh) `", Härdle 等 (1993 ) 证 明了 hh/h。 依 概率 收敛 于 1。 

我 们 现在 简要 比较 一 下 Ichiruma(1993 ) 与 Hirdle 等 (1993 ) 中 使 用 的 正则 
条 件 。 用 于 证 明定 理 8.1 的 正则 条 件 与 建立 式 (8.24) 的 正则 条 件 是 有 所 不 同 
的 。 例 如 ,在 定理 8.1 中 使 用 的 条 件 要 求 一 个 更 高 阶 的 核 ,而 Hirdle 等 使 用 一 
个 具有 最 优 平滑 参数 h = 0(n-'“) 的 二 阶 核 来 推导 式 (8. 11)。 在 式 (8. 24) 中 ， 
最 小 化 是 在 限制 收缩 集 (B,h) e B, x 有 ,中 进行 的 , 故 有 BB-B,。=0(n”'“)。 这 
个 条 件 使 得 核 估计 的 偏差 比 其 在 定理 8. 1 的 条 件 下 要 小 ,因此 人 们 可 以 得 出 式 
(8. 11) 而 不 必 再 求助 于 高 阶 核 。 正 则 条 件 间 的 另 一 个 差异 是 使 用 了 一 个 更 强 
的 矩 条 件 , 即 Y 有 任意 阶 的 矩 ,来 得 到 式 (8. 11)。 这 是 因为 Hirdle 等 需要 式 
(8. 11) 中 的 低 阶 项 在 8, xH, 上 保持 统一 。 证 明 一 致 的 收敛 速度 通常 需要 较 
强 的 矩 条 件 ,然而 在 定理 8. 1 中 ,h 被 当 作 非 随机 的 ,最 小 化 是 只 针对 B 进行 的 ， 
故 一 个 较 弱 的 矩 条 件 即 可 满足 要 求 。 


8.4.2 直接 估计 方法 中 窗 宽 的 选择 


对 于 直接 平均 导数 估计 方法 ,Bu 的 估计 涉及 一 阶 导数 的 g 维 多 元 非 参 数 估 
计 。Hirdle 和 Tsybakov(1993 ) 提出 选择 平滑 参数 a,,… ,a, 来 最 小 化 8 的 均 方 
误差 ,也 即 选择 A 来 最 小 化 E[16 -61 ] 。Hardle 和 Tsybakov 证 明了 渐 近 最 优 
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窗 宽 具有 如 下 形式 (对 所 有 s =1,… ,gq): 
a, = gop Or 
其 中 < 是 一 常数 ,为 核 的 阶 数 ,4 29 x 的 维 数 。 
Powell 和 Stoker ( 1996) 给 出 了 一 个 估计 c, 的 方法 ,而 Horowitz ( 1998, 
pp. 50—52) 考虑 了 基于 自 举 法 抽样 来 选择 a,。 
在 已 经 选择 最 优 的 a, 后 就 可 以 得 到 B 的 一 个 平均 导数 估计 量 。 用 8, 来 表 
一 般 的 估计 量 。 然 后 ,人 们 通过 在 式 (8.7) 所 定义 的 g(x'pB,,h) = 
8&8(x'B, ) 来 估计 E[ Ylx] =g(x'Bo)。 与 标量 指标 x'B, 相关 联 的 平滑 参数 可 以 


通过 最 小 二 乘 交 错 鉴 定 法 来 选择 , 即 选择 来 最 小 化 Y LY, -8 (XB, ,h) T? 。 


在 某 些 正则 条 件 下 ,交错 鉴定 法 选择 的 hk 是 0,(n”“) 阶 的 。 

人 们 也 可 以 把 部 分 线性 模型 和 单 指标 模型 结合 在 一 起 得 到 一 个 "部 分 线性 
单 指标 模型 ”" ,具有 形式 E(YIX,Z) =X'a+g(2Z'B)。 对 部 分 线性 单 指标 模 型 的 
估计 见 Carroll 等 (1997 ) , Xia ,Tong 和 Li(1999) 以 及 Liang 和 Wang(2005)。 


8.5 Klein 和 Spady 的 估计 量 


当 单 指标 模型 是 从 二 元 选择 模型 (8. 2) 导出 时 ,并 且 在 =, 53 X, 独立 的 假定 

下 ,Klein 和 Spady(1993 ) 提 出 了 用 最 大 似 然 方 法 来 估计 B。 估 计 的 对 数 似 然 函 
数 为 

C(B) = XY (1- Y)ln(1- &(X/'0)) + DYln[g8(XB)] (8.25) 


其 中 (XB) 定 义 见 式 (8.7)。Klein 和 Spady 提出 ,关于 B 最 大 化 式 (8. 25) 得 
到 BB 的 半 参 数 最 大 似 然 估计 量 , 记 为 Brs。 类 似 于 Ichiruma( 1993) 的 估计 量 ,最 
大 化 的 实现 必须 通过 数值 求解 由 式 (8. 25 ) 得 到 的 一 阶 条 件 。 

在 一 些 正 则 条 件 下 ,包括 引入 一 个 修剪 本 数 来 剔除 X, 支撑 集 边界 附近 的 
观测 值 ,使 用 高 阶 核 ,Klein 和 Spady (1993 ) 证 明了 Bws 是 Yn 一 致 的 且 具 有 渐 近 正 
态 分 布 如 下 

Vn(Brs - B) — N(0, Nys) 


Qs = | SE) [grr py al 


P=P(xB> -e)=Fa. (xB), EP Fa, ( 0) PE eg, EX =x 条 件 下 的 累积 分 布 
函数 。 


其 中 
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Klein 和 Spady( 1993 ) 也 证 明了 他 们 提出 的 估计 量 在 其 渐 近 方差 达到 半 参 
数 有 效 边界 的 意义 上 是 半 参 数 有 效 的 。 

我 们 将 半 参 数 估计 量 Qu 的 渐 近 方差 与 对 应 参数 估计 量 02,, 的 渐 近 方差 进 
行 比较 。 参 数 模型 具有 两 个 额外 的 参数 ,nn = (y。,y,)'。 将 参数 y 分 拆 为 
y= (7'B') IBA n (Ba -PRIETEN Va E D- n (P) U) o 3# 
其 与 Va 对 比 ,可 以 证 明 ( 例 如 ,Pagan 和 Ullah ( 1999, p. 278 )) #; 
E(X,IX'8) =c, +c, (X 8) ,这 里 cs 和 ci 为 两 个 4 x 1 的 常数 向 量 ,那么 有 Vi! = 
Va ,或 者 等 价 地 有 Vers = Vo 

也 就 是 说 , 半 参 数 估计 量 是 渐 近 地 与 参数 非 线性 最 小 二 乘 估计 量 一 样 有 效 
的 ,这 里 参数 非 线 性 最 小 二 乘 估 计量 是 基于 当 E(X,IX'B) 对 XB 具有 线性 形式 
(“一 阶 有 效 性 ”) 时 g(* ) 的 真实 函数 形式 是 已 知 的 条 件 得 出 的 。 这 与 部 分 线性 
模型 的 情形 是 相似 的 。 然 而 , 当 E(X,1X,B) 不 是 X'B 的 一 个 线性 函数 时 ,可 以 
证 明 Vs - Vi 是 正定 的 。 因 此 半 参 数 估计 量 与 基于 g(: ) 真实 函数 形式 的 参数 
非 线性 最 小 二 乘 估计 量 相 比 是 渐 近 弱 有 效 的 , 渐 近 方差 V. - Vi 是 正定 的 , 除 
EE(X,IX/8) =co +c,(XB)。 此 外 ,由 于 Vrs 已 经 达到 半 参 数 有 效 边界 ,此 种 情 
形 下 结果 不 能 被 改进 。 与 参数 非 线性 最 小 二 乘 估计 量 相 比 , 半 参 数 模型 的 有 效 
性 缺失 是 由 于 gC) (或 者 等 价 地 ,F..(')) 的 函数 形式 未 知 。 当 然 , 实际 中 
&(- ) 的 真实 函数 形式 普遍 是 未 知 的 ,这 样 半 参 数 估计 量 对 于 g(: ) 函数 形式 被 
误 设 是 稳健 的 。 


8.6 Lewbel 的 估计 量 


Lewbel( 2000) 考 虑 了 如 下 二 元 选择 模型 : 

Y, = 1(v, + XB+e, > 0) (8.26) 
其 中 v 是 一 个 (特殊 ) 连续 回归 元 ,其 系数 被 正规 化 为 1, 蕊 的 维 数 为 q. S 
fl(vlx) 表 示 给 定 X, 时 wv 的 条 件 密度 函数 ,F(a1v,x) 表 示 给 定 (v,,X,) 时 e, 的 
RFR MRR, E F, (elv,x) =F (x) REF, BIA x HRF, e 与 特殊 
回归 元 V, 是 相互 独立 的 ,上 且 E[X,e,] =0,Lewbel 证 明 

B = [E(X.X,)]™E[X.Y.,] (8. 27) 
式 (8.26) 建 议 人 们 通过 Y, X X, 回归 来 估计 B。yY, 涉及 了 未 知 量 f(v,1X,) ,可 
以 通过 第 5 章 介绍 的 非 参 数 核 方法 来 得 出 /(v1X,) 的 一 致 估计 。 令 B 表 示 相 应 
的 B 的 可 行 估 计量 ,Lewbel(2000) 建 立 了 其 提出 的 6 的 估计 量 的 Vn 正 态 性 
结果 。 
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Lewbel(2000) 在 ,与 X, 相关 , 即 E( e, X, 0) fJ JE F, — 2 J Y JÚ P 
得 到 的 结果 。 假 定 存 在 一 个 p 维 工 具 变 量 向 量 Z, WE Elez) =0,E(Z,X',) 
韭 奇异 ,上 且 F(a,xlv,z) =F,(e,x1lz) ,其 中 FF(e,xl。) 表 示 (s,x) 以 数据 
为 条 件 的 分 布 函 数 ,Lewbel 证 明 
Y, - 1(v, > 0) 


B = [E(Z,K,) ] E| z, f:l Z.) 


因此 ,人 们 可 以 用 样本 均值 替换 上 式 中 的 期 望 并 用 f(v12,) 的 一 个 一 致 估计 量 
替换 SCl Z) Kitt Bo 
上 述 方法 可 以 扩展 到 定义 如 下 的 有 序 响应 模型 
J -1 

Y, = Y jila; <v + XB +e, <a +l) (8.28) 
其 中 a, = = , Gy = + oo 啊 应 变量 y 在 10,1,…,J-1j 中 取 值 , 且 当 
v; +X B +e MF aj =] aj Z,A Y, =jo 令 > =1( 截 距 项 ) ,同时 不 失 一 般 
性 令 B =0( 和 否则 可 以 重新 定义 o% H a-p) $ Y, =1(Y,>zj),j=1,-:,J-1, 
定义 A =[E(X,X,)] ,同时 令 A 为 A 的 第 j 行 。Lewbel(2000) 证 明 


Y. -1l(v >0) š 
=-A.E =Ë ¿= 2. i, = l, J-l 8. 29 
a, À, (x Ta X) j J ( ) 
J-i 
B, -ay 2⁄0 -1) - 1(v, did! l=2,:-,q (8.30) 
' fiv: | X,) 


从 式 (8.29) 与 式 (8. 30) 中 可 以 容易 得 出 a 与 B, 的 可 行 估 计量 , 即 用 样本 均值 
蔡 换 上 式 中 的 期 望 并 用 f(v1X,;) 的 一 个 一 致 估计 量 来 替换 /(v1X,)。Lewbel 
(2000) 建 立 了 所 得 估计 量 的 渐 近 正 态 性 结果 。Lewbel 进一步 证 明了 其 结果 能 
够 扩展 来 处 理 多 项 选择 ,部 分 线性 潜 变 量 模 型 以 及 阅 值 和 审查 回归 模型 。 


8.7 Manski 的 最 大 得 分 估计 量 


Manski( 1975) 的 最 大 得 分 ?估计 量 涉及 选择 B 来 最 大 化 以 下 目标 函数 : 
Su(B) = Y YAGXIB > 0) + (1 - Y,)1(X;8 < 0) (8.31) 


这 个 估计 量 寻求 的 是 最 大 化 正确 预测 的 数目 。 对 了 =1,# X B20, # S, 
=1, 若 XB<0, 则 有 S,(8) =0。 正 确 的 预测 获得 权 数 1, 一 个 不 正确 的 预测 获 


D 注意 Manski 这 里 使 用 的 术语 “得 分 "(seore) 类 似 于 “记分 ”, 如 棒球 比赛 中 得 分 的 意思 ,而 不 是 
指 统计 上 的 score 函数 (如 对 数 似 然 函数 梯度 之 和 ) 。 
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y ʻi e 所 % B < E y 


得 权 数 0。 类 似 地 ,对 于 Y=0, 车 XiB<0, 有 S, =0,# XiB20, WE Sy = -1。 
这 种 情形 下 ,正确 的 预测 获得 权 数 1 ,不 正确 的 预测 获得 的 权 数 为 - 1。Manski 
(1975) 在 median( Y, IX.) =X; B(R# median( ;1X,) =0) ,8 的 首 元 为 1,x 的 首 
元 为 连续 变量 的 假定 下 ,证 明了 BB 的 强 一 致 性 。Kim 和 Pollard( 1990 ) 证 明了 最 
大 得 分 估计 量具 有 收敛 速度 n“ ,而 不 是 通常 的 nm …“。 由 于 目标 函数 是 非 连 
续 的 ,因此 渐 近 理论 中 的 标准 Taylor 级 数 展 开 方 法 不 能 应 用 在 最 大 得 分 估计 量 
上 。Kim 和 Pollard 证 明了 i SUB -B) 的 极限 分 布 是 一 个 带 有 二 次 漂移 的 
多 维 布朗 运动 最 大 值 。 这 个 渐 近 分 布 非常 复杂 因此 不 便 应 用 于 推断 。Manski 
和 Thompson (1986 ) 提出 了 使 用 自 举 法 来 逼近 B,.. 的 渐 近 分 布 。 自 举 法 实施 
起 来 比较 简便 , Manski 和 Thompson 给 出 的 模拟 证 明 他 们 提出 的 自 举 法 在 有 限 
样本 应 用 中 表现 良好 。 


8.8 Horowitz 的 平滑 最 大 得 分 估计 量 


尽管 Manski(1975 ) 证 明了 其 给 出 的 最 大 得 分 估计 量 在 比较 弱 的 分 布 假定 
下 是 一 致 的 ,但 它 的 收敛 速度 较 慢 且 渐 近 分 布 比较 复杂 。Horowitz(1992 ) 提出 
了 一 个 修正 的 最 大 得 分 估计 量 ,可 以 通过 最 大 化 Manski 的 得 分 函数 的 平滑 形式 
来 得 到 ,估计 量 逼 近 Vn 的 速率 依赖 于 某 些 平滑 性 假定 的 强度 。 实 质 上 ,Manski 
方法 的 问题 主要 在 于 在 式 (8.31) 中 使 用 的 示 性 函数 缺少 连续 性 。Horowitz 提 
出 用 一 个 保留 了 示人 性 函数 本 质 特征 的 二 次 连续 可 微 函 数 来 代替 示 性 函数 1(4) 。 
Horowitz 通过 最 大 化 如 下 平滑 目标 郴 数 来 估计 B; 


,man S... (8) = =E (2Y, - Dc( 二 人 (8.32) 
其 中 CCO) E: p 次 连续 可 微 的 累积 分 布 函 数 h=h, >0, H4 no 时 有 Ah-*0。 易 
知 当 太一 0 BF, G ( Xi8#h) — ( XiB > 0), f tm, ANITA wt 
C(x) = [kh(v)do,k(*) 为 一 个 p -1 次 可 微 核 函 数 。 在 一 些 正则 假定 下 , 包 
括 给 定 x'B 关于 y 的 条 件 密 度 函数 的 一 些 平滑 条 件 ,Horowitz 证 明了 其 所 提出 
的 平滑 最 大 得 分 估计 量 , 记 为 Bw。, 具 有 与 Bo -B= (nh)-"“ 相 同 的 收敛 
速度 且 服 从 渐 近 正 态 分 布 。 对 某 些 0 <eo, h = (c/n) ,那么 


-B RAA n” 2? 相同 的 收敛 速度 ,如 果 疡 足够 大 ,收敛 速度 将 会 非常 接 
gee s, 
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q = B < & 3 * x, 


8.9 Han 的 最 大 秩 估 计量 


不 同 于 式 (8. 31) 给 出 的 最 大 化 得 分 函数 ,Han(1987) 考 虑 了 最 大 化 二 元 结 
果 六 ,与 指标 函数 XB 之 间 的 秩 相关 性 。 这 是 通过 对 下 式 进行 最 大 化 得 到 的 : 
2 


Ga(B) n(n-1) £ eh Y)1(X;B > XB), (8.33) 


这 里 的 求 和 是 在 离散 元 素 |i,j| 所 有 | | =n(n - 1)72 个 组 合 上 进行 的 。 一 个 简 


单 的 原理 促 发 了 这 个 估计 量 。F 的 单调 性 以 及 z, 5 X, 之 间 的 独立 性 保证 了 
PLY EAE SAF p PUOY < Y. | K.k) XY E prn 

也 就 是 说 ,当天 Bu: 天 Bo 时 ,Y, > Y, 的 可 能 性 更 大 ,Han(1987) 证 明了 8 = 
Bo 最 大 化 了 E[ Gs(B) ] ,Bo 为 B 的 真实 值 Han 进一步 建立 了 其 提出 的 最 大 秩 
相关 (MRC) 估 计量 的 强 一 致 性 ,但 是 他 并 没有 提供 其 给 出 的 最 大 秩 相 关 估 计量 
的 渐 近 分 布 。 给 出 最 大 秩 相 关 估 计量 极限 分 布 的 主要 困难 来 自 目标 函数 
Gn(B) 的 非 平滑 性 。 注 意 64(B) 是 一 个 二 阶 U 统计 量 (或 者 称 为 U 过 程 ,指标 
HB). EA U 统计 量 分 解 以 及 退化 U 过 程 的 一 致 界限 ,Sherman(1993 ) 证 明了 
最 大 秩 相 关 估 计量 是 Vn 一 致 的 且 具 有 渐 近 正 态 分 布 。 

到 目前 为 止 ,我 们 考虑 的 都 是 半 参 数 二 元 选择 模型 ,模型 中 误差 项 的 分 布 
是 非 参数 模式 的 ,线性 指标 x B 是 模型 的 参数 部 分 。Matzkin(1992 ) 考虑 了 一 个 
更 一 般 的 二 元 选择 模型 ,模型 中 外 生变 量 的 系统 函数 与 随机 误差 项 分 布 均 不 使 
用 任何 参数 结构 。Matzkin 给 出 了 识别 条 件 且 证 明了 她 的 非 参 数 最 大 似 然 估计 
量 的 一 致 性 。 


8.10 多 项 式 离散 选择 模型 


Pagan 和 Ullah( 1999 ,pp. 296—299 ) 给 出 了 一 个 关于 多 项 式 离散 选择 模型 
半 和 参数 估计 很 好 的 综述 。 对 于 下 述 讨 论 ,考虑 一 个 个 体面 临 J(J>2) 种 选择 的 


Wo EX Y, = 1 为 个 体 i 选择 了 第 j 种 选择 (j=1,… ,J 了) ,否则 Y=0。 令 
F; =P(Y, =11X,) =E(Y;1X,) ;那么 多 种 选择 方程 为 

Y, = F; + ey (8.34) 
似 然 函 数 为 


a J 
FA F} Y;lnF; (8.35) 


j 
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参数 方法 指定 了 FF, 的 函数 形式 。 例 如 , 设 定 下 式 可 得 到 一 个 多 项 式 Logit 

模型 : 
F, = exp(X,8)/ > exp( Xsp) 

半 参 数 方法 设 定 F, =E(Yj1X) =E(Y;lvas b) =g(va，… ,vj) HP g( ° ) 
的 函数 形式 是 未 知 的 , 且 w =X,B,。 估 计 过 程 与 前 面 讨论 过 的 半 参 数 单 指标 模 
型 类 似 。Ichimura 和 Lee( 1991 ) 将 Ichimura (1993 ) 的 方法 拓展 到 多 指标 情形 ， 
并 且 导 出 了 相应 半 参 数 最 小 二 乘 估计 量 的 渐 近 分 布 。Lee(1995 ) 提出 使 用 半 参 
数 最 大 似 然 方法 来 估计 多 指标 模型 (8.35 ) 。Ai(1997 ) 考虑 了 一 般 化 的 半 参 数 
最 大 似 然 方法 ,这 种 方法 可 以 应 用 于 多 种 半 参 数 模型 ,如 作为 特例 的 多 指标 模 
型 以 及 部 分 线性 模型 。 我 们 接 下 来 讨论 Ai 的 一 般 化 方法 。 


8.11 Ai 的 半 参 数 最 大 似 然 方法 


Ai( 1997) 考虑 了 一 个 一 般 化 的 半 参 数 最 大 似 然 估计 方法 。 令 
g(YIX,0, ,go ) 为 给 定 X 下 Y 的 条 件 概率 密度 函数 ,其 中 0, 为 一 有 限 维 的 参数 
(参数 部 分 ) ,go(* ) 为 无 限 维 的 未 知 函 数 。Ai 进一步 假定 条 件 密度 满足 一 个 指 
标 约 束 , 即 存在 一 些 已 知 函 数 v,(z,0) 与 v,(z,0) ,使 得 

q(Y| X,0,,g.) = J(Z,0.)/(s, (Z,0,) | ,(X,0,) ,0,) (8.36) 
其 中 f(* 1 ,9) 是 对 任意 9 给 定 时 的 条 件 密度 ,J(z,6) 为 一 已 知 的 从 
n (z,0) y 的 雅 可 比 转换 矩阵 。 

模型 (8. 36) 包 含 了 许多 人 所 熟知 的 半 参 数 模型 作为 特例 。 例 如 ,考虑 一 个 
部 分 线性 回归 模型 7 (Y) =X/0, +m, (X;0, +X, ) +u, 其 中 1(:) 与 7,(:) 的 机 
数 形式 是 未 知 的 ,uw 独立 于 x = (X, ,X,,X;) 且 其 密度 函数 mn;(:) 是 未 知 的 。 
9=(9,,9,) 是 模型 的 参数 部 分 ,n = (m smn ) 是 模型 的 非 参数 部 分 。 例 子 中 
给 定 x F y 的 条 件 密度 数 为 

4(Y1 X,0,n) = mEm(Y) -X,0, - n; (X;0, + X,)] | mt” (7) 1 
(8.37) 
另外 它 也 是 给 定 v, = (X, 0, ,X,0, + X,) F v= 了 的 条 件 密度 函数 ,其 中 n (y) 
表示 n (y) Xt y 的 导数 ,1m;”(y) 1 为 雅 可 比 和 矩阵 。 

对 于 Ichimura 和 Lee( 1991 ) 中 的 部 分 线性 多 指标 模型 ,mm (Y) = Y( 于 是 雅 
可 比 矩 阵 J=1) ,w = 了 -和 bw =126, 此 时 式 (8.37) 变 为 (其 中 雅 可 比 和 矩阵 = 
1) 

flv, | o) = m,(Y - X;0 - m.,(X;0,)) (8.38) 
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各 ™ ~ 


Hp n, (:) X u = Y - X/0, -m ( X; 0) 的 密度 函数 ,mn, (X60,) =E[Y- 
Xi'9011X10] 。 若 人 们 使 用 在 式 (8. 38) 中 的 0, =0, 模 型 退化 为 Ichimura( 1993 ) 给 
出 的 单 指标 模型 ( 见 第 8 章 )。 
对 于 第 7 章 中 讨论 的 部 分 线性 模型 ,mi (Y) = Y,w =Y =X/0,,0, =0,v = 
X, ,那么 式 (8.37) 变 为 (J=1) 
flv lv,) = m,(Y - X00- m,(Y,)) 
HP (e) 239 u= Y- XI0, - n (X) HRE RA, (X) =E[Y- X/01X,], 
RR fE PF 6 Wm pf 4 i K KR, 定义 m (x, 0, f) = 
alIn[g(ylx,9,f) ]/99。 若 f 的 函数 形式 是 已 知 的 ,我 们 可 以 通过 对 9 解 如 下 得 
分 方程 来 估计 0: 
S.(0) = 2 m(Z,,6 ,) = 0 (8.39) 
由 标准 大 数 定律 和 中 心 极限 定理 可 以 得 出 9 的 Vn 正 态 性 。 当 了 未 知 时 ,Ai 
(1997) 建议 用 非 参 数 核 方法 来 估计 Jf。 令 f(v(z,9) ,0) 为 v 的 联合 密度 函数 ,所 
(v,(x,9) ,9) 为 v 的 边际 密度 函数 ,我 们 有 
fi(v(z,0) ,0) 
fl(vi(z,0) | v,(x,0).,0) “= 天 (本 他 
将 其 代入 m(z,0,f) =əln[q(ylzx,0,f) ]/99 有 
mz,0.f) = Milis 0 Ja ) mla 0 J; ) 
其 中 


CAER AR f.) = maA y [s(z,0),0]f,[u,(z,0),0] 


a 


-0 
u 1 
m,(z,0,f À, BI ~ f.[e(z,0) .0]f,[s,(z,0) ,0] ,0] 
Sq 与 q; 分 别 表示 wv 和 +， 的 维 数 ,那么 f.(9) =f(v (2;,0) lo,( X,,0) ,0) 的 
核 估 计量 由 下 式 给 出 : 
f(v(2.,0) | v,(X,,0) ,0) = 0) (8.40) 
fx (o,, 0) 


其 中 
f,(v,0) "T K | ) (8.41) 
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f. (s, ,6) "L yx [s= 2) (8.42) 
其 中 乘积 核定 义 为 
K|") = [se _ 


aR X, 8) =] v =p (X.,0) 
K [% 5 (X,,0)) pk a 
L h, ) [Id h;, 


那么 可 得 到 f,(9) =f.(0 ) =f(x,(Z,,0) 1v,(X,,0) ,9) 的 一 个 估计 量 为 
f(v(2,,0) ,9) 

fia(v,(X,,0) ,6) 

最 后 , 解 如 下 一 阶 条 件 可 以 得 到 9 的 估计 量 6: 


f.(0) = 


S,(0) = Y m(Z,, 09,f.(0)) = 0 (8.43) 


对 于 单 指 标 模 型 的 例子 ,有 雅 可 比 和 矩阵 =1,0,。=0,v, =y,X, HZ. RE 
X, =x,0, =0,JËZ # x, =x'6。 此 时 我 们 有 


fu =f(v,0) =f(Y,X0) =m > 1(Y, = A A — 


fa =f(v,0) = f,(z'0) = n” ya -arh 


m(Z,,0,f, Ju) = (Ba 
我 们 就 得 到 与 Klein 和 Spady(1993) 的 估计 量 一 模 一 样 的 一 阶 条 件 ?; 我 们 把 对 
此 结论 的 验证 作为 习题 (见习 题 8. 4) 。 
Ai(1997 ) 证 明了 可 行 估计 量 6 与 非 可 行 估计 量 9 具有 相同 的 渐 近 分 布 , 且 
对 于 此 类 半 参 数 模型 9 在 其 渐 近 方差 的 逆 等 于 半 参 数 有 效 边 界 的 意义 上 是 半 参 
数 有 效 的 。 


8.12 定理 8.1 的 证 明 概要 


我 们 首先 推导 出 式 (8. 45), 
注意 有 G(X B) =E[zg(X/B,) X 8], g(X'B,) Œ B, =B 处 进行 Taylor 展 


O 为 了 表达 的 简单 RALE Y E d AA EJES SCO Veli M Ai( 1997 ,p.938 ) 。 
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š = g i A sS a 38 z 


JE,H bo -B =O(n`!?) ,我 们 有 
g(XBo) - G(XiB) = g(X;Bo) - Elg(X;Bo) | X; 8] 
= g(XiBo) - g(X;B) -g (XB)ELX; (B, - B) ! X; B] 
+ O(n ) 
= g' (XB)[X, - E(X, | XB)](B, - B) + 0(n U) 
(8.44) 


将 式 (8.44) 代 入 S(B) = > [ge(Xip,) +u, - G(X; Bo) ] 我 们 得 到 
S(B) = (Ba - B) 'W,(8, - B) - 2V, (B, - B) + > u +o(1) (8.45) 
其 中 wW, 与 V, 均 在 式 (8. 10) 中 定义 。 由 式 (8. 45) 的 一 阶 条 件 可 以 得 到 
式 (8. 10) 。 
可 以 证 明 式 (8.9) 中 首 项 可 以 通过 将 E(Y,1X'B) 替换 为 E[g(X'B,)1X'B] 
得 到 。 一 致 地 ,在 Be B, E ,我们 有 


$1,(B) = >F le(Xip) - Elg(X!Bo) | X, B) |° 


+2 5 ulg(X/p) - ELg(X!po) | X/B]| 


+ | 独立 于 6 的 项 | +o (n) (8.46) 
由 于 Be B.T 8 -B 1 = O0(n 2), g (Xpo) fE B, = 有 处 进行 Taylor 
展开 (下 式 进行 了 两 次 展开 ) ,有 
g(XiBo)— Elg(XBo) | XB] = g(XiBo) - g(XiB) 
- g) (XB)E(X; | XB) (Bo - B) + 0,(n”') 
= g” (XB) X - E(X; | X;B)} (Ba - B) + 0,(n™) (8.47) 
将 式 (8.47) 代 入 式 (8.46) ,我 们 得 到 


Sa (B) = (Bs-B)' [5 e noi] - p) 


+2 D ue (po - B) 


+ | 独立 于 有 的 项 | +o, (n) (8.48) 
其 中 ë =g" (X, B) ,s, = X, -E(X,IX,8). 
对 有 最 小 化 Su(B,) 忽 略 掉 与 B 无 关 项 及 o%(n …) 项 ,我 们 得 到 一 阶 条 件 
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2(B, -B) F a” ) vw -245 ue =0 (8. 49) 
由 此 可 以 导出 
el E. NE a 3 aay 
Valp B) = [TE GV oe] Ze 


= [EE GP] Jupe + ol) (8.50) 
其 中 zk =g (XiBo) ,vo = X, - E(X; 1X;Bo) , 式 (8.50) 中 第 二 个 等 式 应 用 了 
有 -Bo=0,(n 2?) 的 要 求 。 
由 标准 的 大 数 定律 和 Lindeberg-Levy 中 心 极限 定理 可 以 推导 出 
Vn (8, - B) 一 N(0, V) 依 分 布 收敛 (8.51) 
其 中 
V, = K'A 
M = E| (g6) vava} 
J, = Ejo’ (X,) (E9 ) vovo] 
vo = X, - E(X, !| Xiba) 
如 果 替 换 为 w(X,) =1, 定 理 8. 1 的 结果 与 式 (8.51) 是 相 吻 合 的 。 


8.13 应 用 


8.13.1 对 邮寄 目录 直销 响应 的 建 模 


直销 通常 用 于 这 样 的 目标 客户 ,基于 可 观测 的 特征 如 人 口 统计 资料 及 个 体 
历史 购买 决策 ,他 们 最 可 能 会 是 回头 客 。 例 如 ,人 们 可 能 考虑 只 向 那些 最 可 能 
成 为 回头 客 或 者 “最 像 " 回 头 客 的 人 进行 目录 邮寄 。 然而 ,直销 的 成 功 或 者 失 
败 ,直接 依赖 于 识别 哪些 客户 最 可 能 做 出 购买 的 能 力 。 

Racine ( 2002 ) 考虑 了 一 个 行业 标准 数据 库 , 这 个 数据 库 来 自 直 销 协会 
(DMA)Q , 它 包 含 了 一 个 复制 礼品 目录 公司 , 即 “ 每 年 向 它 的 顾客 邮寄 一 般 及 专 
门 的 目录 若干 次 的 高 档 礼 品 企业 "的 数据 。 基 本 时 期 包含 1971 年 12 月 到 1992 


®© Bult 和 Wansbeek(1995) 在 最 大 化 收益 的 框架 下 ,指出 事实 上 可 能 恰恰 相反 ,卖方 为 了 节省 成 本 
会 避免 向 那些 高 度 可 能 的 购买 者 重复 邮寄 。 不 考虑 目的 的 话 , 识 别 哪 些 人 最 可 能 进行 购买 的 能 力 在 过 去 
已 证 明 是 个 问题 。 

@ ”此 数据 库 包含 全 美 公 开 目 录 和 非 营 利 营销 行业 数据 库 大 约 100 000 名 顾客 的 购买 历史 。 
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年 6 月 。DMA 收集 的 数据 包括 订单 .14 个 产品 组 中 每 组 的 购买 量 、 购 买 时 间 以 
及 购买 方式 。 在 1992 年 秋季 较 早 时 候 向 现 有 数据 库 中 顾客 至 少 发 送 了 一 份 目 
录 之 后 ,数据 就 出 现 了 三 个 月 的 缺口 。 然 后 从 1992 年 9 月 到 1992 年 12 月 的 数 
据 进行 了 更 新 。 这 给 出 了 这 样 一 个 背景 ,模型 可 以 在 基本 时 期 构建 然后 在 后 面 
的 时 期 评估 。 在 第 一 个 时 期 构造 出 一 个 4500 名 顾客 的 随机 子 集 ,为 预测 一 个 
顾客 购买 可 能 性 的 各 种 方法 被 使 用 ,接着 对 独立 的 后 续 (hold-out) 样本 来 评估 
预测 的 准确 性 ,样子 包含 从 后 面 时 期 抽取 的 1500 个 随机 挑选 的 个 体 。 

对 容量 n, =4500 的 估计 样本 参数 指数 模型 ( Logit, Probit) 和 半 参 数 指标 模 
型 (Ichimura( 1993 ) ; Ichimura 和 Lee( 1991) ) 进行 拟 合 ,再 对 容量 mw =1500 的 后 
续 样 本 进行 评估 。 

数据 描述 

我 们 有 两 个 相互 独立 的 估计 数据 集 和 评测 数据 集 ,容量 分 别 为 n, =4 500 
和 n, =1500, 对 每 个 顾客 均 有 一 份 记录 。 我 们 把 注意 力 放 在 其 中 一 个 产品 组 
上 , 即 选取 14 个 产品 组 中 部 的 第 8 个 产品 组 。 研 究 中 涉及 的 变量 如 下 ,其 中 这 
些 变量 的 特征 见 表 8. 1 和 表 8. 2。 

(i) Response: 决 定 是 否 购买 

(ii) LTDFallOrders: 累计 秋季 订单 

(iii) LastPurchSeason: 购 买 发 生 季 节 

(iv) Orders4YrsAgo: 最 近 五 年 中 的 订单 

(v) LTDPurchGrp8 : 累计 购买 

(vi) DateLastPurch : 上 次 购买 发 生 时 间 包 


表 8.1 估计 数据 集 一 览 (m =4500) 


变量 均值 标准 误 。 最 小 值 最 大 值 
Response 0.09 0. 28 0 l 
LTDFallOrders 1.36 1.38 0 15 
LastPurchSeason 1. 62 0.53 -1 2 
Orders4 YrsA go 0. 26 0.55 0 5 
LTDPurchGrp8 0.09 0.31 0 4 
DateLastPurch 37. 31 27.34 0 117 


Q 在 数据 库 中 , 当 购 买 发 生 在 1 月 至 6 月 的 此 项 记 为 1, 购 买 发 生 在 7 月 至 12 月 的 记 为 2, 若 没有 
购买 发 生 记 为 -1。 
@ 12/17 记 为 0,1/72 记 为 1, 以 此 类 推 。 
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® a z a = 总 te = > 
38.2 评测 数据 集 一 览 (n, =1500) 

变量 均值 
Response 0.08 
LTDFallOrders 1.32 
LastPurchSeason 1.63 
Orders4 YrsAgo 0.25 
LTDPurchGrp8 0.08 
DateLastPurch 36. 44 


标准 误 。 最 小 值 RAM 
0.27 0 l 
1.38 0 14 
0.51 -1 2 
0.52 0 4 
0. 29 0 3 
26. 95 0 116 


每 个 模型 都 用 其 样本 外 表现 来 评测 ,样本 外 表现 是 基于 McFadden, Puig 和 
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Kirschner(1977)@ 的 标准 与 正确 购买 分 类 率 @。Logit 模型 @ 的 结果 以 混 清 矩阵 


的 形式 在 表 8. 3 中 给 出 , 半 参 数 指标 模型 的 结果 在 表 8.4 中 给 出 。 
表 8.3 Logit 模型 的 混淆 和 矩阵 与 分 类 素 


预测 未 购买 预测 购买 
实际 未 购买 1378 5 
实际 购买 108 9 
预测 表现 91.95% 
总 正确 分 类 率 92.47% 
正确 未 购买 分 类 率 99.64% 
正确 购买 分 类 率 7.69% 

表 8.4 半 参 数 指标 模型 的 混淆 矩阵 与 分 类 率 

预测 未 购买 预测 购买 
实际 未 购买 1361 22 
实际 购买 75 42 
预测 表现 93.26% 
总 正确 分 类 率 93.53% 
正确 未 购买 分 类 率 98.41% 
正确 购买 分 类 率 35.90% 


D Pi +P>p - Ph -Ph JEF P22 x2 混淆 矩阵 中 第 i: 行 第 j 列 元 素 , 表 示 为 所 有 元 素 加 总 后 的 一 
部 分 。“ 混淆 矩阵 "是 指 模型 真实 结果 与 预测 结果 对 比 的 一 个 列表 。 对 角 线 元 素 包 含 正 确 的 预测 结果 而 
非 对 角 线 元 素 包含 不 正确 ( 混 清 ) 的 结果 。 

@ ”最终 确实 购买 的 顾客 中 被 准确 预测 到 的 所 占 的 比例 。 

图 Probit 模型 的 结果 没有 Logit 模型 的 结果 好 ,为 节省 空间 将 其 略 去 。 
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半 参 数 单 指标 模型 对 后 续 数 据 得 出 的 预测 表现 要 优 于 参数 Logit 模型 。 另 
外 注意 ,尽管 在 McFadden 等 (1977 ) 的 标准 下 ,参数 模型 看 起 来 表现 不 错 ,但 是 


在 对 确实 做 出 购买 的 这 类 人 的 预测 上 表现 不 佳 。 


8.14 习 Ki 


习题 8. 1 
(i) 如 果 了 为 一 个 10,11 二 元 变量 ,证 明 P(Y=11x) =E(Ylx)。 
(ü) 如 果 了 为 一 个 在 11,2| 中 取 值 的 二 元 变量 ,P(Y=11x) 与 E(Ylx) 仍 然 


相等 吗 ? 
习题 8.2 在 推导 式 (8. 51) 时 ,对 式 (8. 51) 右 端 第 二 项 ,我 们 应 用 了 如 下 
事实 

G) ES uñ(u l XB) = MEFE +o, Cn) 的 项 


Gi) EX ul Elg(X Bo) ] - Êla(X Bo) | XABI} = o,(n™) ,其 中 


É(u, 1 XB) = (nh) Ð u;K( (X, - X,)'B/h)/p( X: B) 


P(XB) = (nh) > K( (X, - X,) 'B/h) 
证 明 (i) 和 (ii) 。 
提示 :对 (i) ,在 B=B。 处 进行 Taylor 展开 并 应 用 B -Bo =0,(n7'?)o Taylor 
展开 式 中 第 一 项 是 独立 于 B 的 。 第 二 顶 则 是 一 个 二 阶 U 统计 量 ,应 用 五 分 解 可 


知 其 为 o,(n”) 阶 的 。 
习题 8.3 ”证明 


> [g(XiBo) - É(Y, | X;p) T? -F [g(X/p,) - E(g(X;B,) | X/p) ]° 
+ 独立 于 B +o, (n) 的 项 


提示 : 记 
E(Y.| X'B) = E(g(XB) | XB) + Ê(u; | XB) 
= E(g(X'Bo) | XB) + [E(g(XB,) | XB) - E(g(XBo) | XB)] 


+ E(u, | XB) 
其 中 E(g(XipB。o)1XiB) 与 E(u,1X'B) 的 定义 见 8. 12 节 。 


习题 8.4 验证 当 应 用 Ai(1997 ) 一 般 方法 于 二 元 变量 y 的 单 指标 模型 时 ， 


Ai 的 一 阶 条 件 与 式 (8. 52) 中 Klein 和 Spady(1993 ) 的 一 阶 条 件 相 吻合 。 
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让 f (à z x< - y 


提示 ;Klein 和 Spady ( 1993 ) 的 估计 量 解 出 了 一 阶 条 件 ( 见 Pagan 和 Ullah 
(1999,p.283)) Y h,(0) = 0 ,其 中 


[Y, -—&(X/0)] (8.52) 


, 1 ó X; 
mi(0) = go D ~ gexo) 17 PEO 


na 
其中 (X10) = EYI O) = ËL [TY ° 
TE 


J=1 


第 9 章 ， 可 加 和 平滑 ( 变 ) 
系数 半 参 数 模型 


在 本 章 中 我 们 考虑 文献 中 出 现 的 一 些 流 行 的 半 参 
数 回 归 模 型 。 应 用 这 些 半 参 数 模 型 而 非 纯 粹 的 非 参 数 
模型 的 基本 原因 在 于 , 半 参 数 模型 可 以 减少 非 参 数 部 分 
的 维 数 ,从 而 减轻 维 数 诅 沁 。 当 然 , 这 些 模 型 也 可 能 像 
纯粹 的 参数 模型 一 样 受 到 函数 形式 误 设 的 批评 ,但 是 这 
些 模 型 已 被 证 明 在 应 用 设 定 方面 极其 流行 , 且 在 解释 方 
面 比 纯粹 非 参 数 模型 更 趋 于 简单 。 


9.1 一 个 可 加 模型 


我 们 首先 考虑 半 参 数 可 加 模型 
Y, = co + gı(Zu) + g,(Z,,) Fe + g,(2Z,) + u, 
(9.1) 
其 中 e 为 一 个 标量 参数 ,2, 均 为 一 元 连续 变量 ,g,(*) 
(1=1,…,g) 是 未 知 的 平滑 函数 。 观 测 值 | Y. 2,…， 
Z,1 ?1 被 假定 是 独立 同 分 布 的 。 

对 于 基于 核 的 方法 ,两 种 方法 在 估计 可 加 模型 时 最 
常用 :” 反 回 拟 合 ”(backfitting ) 法 ( 见 Bujia, Hastie 和 
Tibshirani( 1989 ) ;Hastie 和 Tibshirani(1990) ) 与 “边际 积 
分 ?法 ,后 者 由 Linton 和 Nielsen ( 1995) , Newey ( 1994b ) 
VIX Tjøstheim 和 Auestad( 1994) 分 别 独立 提出 。 另 外 也 
可 参考 Chen ,Hirdle , Linton 和 Severance-Lossin(1996 ) 以 
及 Linton(1997,2000)。 由 于 其 迭代 性 质 , 反 向 拟 合法 比 
边际 积分 法 分 析 起 来 要 困难 许多 ,因此 我 们 先 讨论 相对 
比较 简单 的 边际 积分 法 。 


9.1.1 边际 积分 法 
首先 ,注意 对 任意 常数 c, 有 [ gz) +c] +[g,(z,) 
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-c] =g1(z1) +g2(z2)。 因 此 为 了 识别 函数 g) ,我 们 需要 一 些 识 别 条 件 。 由 
核 方 法 很 方便 施加 条 件 E[g1(2,) ] =0, 于 是 g,(*) 的 各 个 元 素 可 被 识别 (1 = 
1,…,q)。 这 也 导致 E(Y,) = co 

S Za (Zus Zarasai Z.) , 即 2 是 通过 (2 Zuu) BE 
Z, AR 00. E X G.(z,) =&gi(zi) + +g... (z...) +g...(z...) +g,(z,)o 
用 这 些 记号 , 则 式 (9.1) 可 以 写成 

Y, = co +8a( Zu) +C (Zu) +u (9.2) 

EXE, Zy) =E(Y12 =z。,2s)。 对 式 (9.2) 两 端 应 用 E[ .12。 =z, Zy], 
我 们 得 到 


£(z,,Z_,) = co + g,(z,) + G, (Za). (9.3) 
EN m, (z) =E[E(z,,2Z。)] ,注意 这 里 是 关于 Z. 取 边 际 期 望 的 。 对 式 (9.3) 
取 期 望 (关于 Z。) ,我 们 得 到 
m.(z,) = Co + g_(z._) (9.4) 
其 中 我 们 用 到 了 E[ 6,(Z。 ) ] =0。 由 式 (9. 4) 可 得 
g.(z,) = m,(z,) - E[m,(Z.,) ] (9.5) 


上 述 方法 是 不 可 行 的 。 然 而 ,一 个 可 行 的 估计 量 可 以 通过 将 期 望 替 换 为 样 
本 均值 ,边际 期 望 (积分 ) 替 换 为 边际 平均 值 ,条 件 均 值 函 数 替换 为 局 部 线性 核 
估计 量 来 得 到 。 特 别 地 , 式 (9.5) 一 个 可 行 的 对 应 估计 量 为 


Bala) = ñ.(z.) = n” Y Mla) (9.6) 
其 中 ü 
m_(z.) = n” Yaz. z) (9.7) 
Ha,(z.,Z.,) J F E 37] (a A P a 的 解 ， 
min > [y, -a — (Za - z.)b]*k, (Zu - z.)K, (Za -Zui)。 


注意 a。 = (z。,2。) 是 E(Y,12。 =z。,2。) 的 核 估计 量 , 它 仅 对 z。 运用 局 部 线 
性 方法 ,而 对 z, 只 运用 局 部 常数 方法 。 

Fan , Härdle 和 Mammen(1998 ) 假 定 上 (:) 为 一 个 一 元 二 阶 核 ,K(:) 为 v 阶 
乘积 核 ,其 中 v EWE v> (q -1)/2 的 正 整 数 。 因 此 ,车 gq > 4 ,一 个 高 阶 核 就 是 
必需 的 (v >2) ;有 关 高 阶 核 函 数 的 构造 见 1. 11 节 。 下 述 定理 给 出 了 8.(z,) 的 
渐 近 分 布 , 为 了 表述 简单 ,我 们 假定 有 h, =… Shaa Sha =… =h,=h,. Fan 
等 证 明了 如 下 结果 。 

定理 9.1 在 Fan 等 (1998) 给 出 的 条 件 下 , 另 假 定 nh.ht''/Inn— e , 
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Ey x: w 党 党 £ m = = 


h/h} —>0,h,—>0 和 及 一 0 ,那么 
/mh.|z.(z.) - z (z.) -co = Z hl (z) + o(h2)] 
> N(0,s,(z,) ) 
Ep gP CE OZNE, K = [wk(u)du， 


s P’ (z.,26)f2(z.) 
valzu) = faln) | fk ‘on] el | = .| 
且 e (zasa) = E(wl2Z,= Za ,Lo = ze)。 
定理 9.1 证 明了 有 (z。) 达 到 了 一 维 最 优 收敛 速度 。 
边际 积分 方法 的 一 个 缺点 是 计算 量 较 大 。 人 们 不 得 不 对 所 有 i,j =1,…n 286 
来 估计 ELY, Zu = Zus Zu =Z], 这 是 一 个 m 级 的 计算 ,而 估计 非 可 加 模型 相 
应 只 需要 级 。 在 下 节 我 们 讨论 一 个 在 计算 上 有 效率 的 估计 可 加 模型 的 方法 。 


9.1.2 一 个 计算 上 有 效 的 oracle 估计 量 


上 节 讨 论 的 边际 积分 方法 由 于 需要 对 i,j =1,…,n 估计 g(2。,2。), 故 计算 
量 非常 大 。Kim,Linton 和 Hengartner( 1999 ) 提出 了 一 个 备 选 方法 ,可 以 将 估计 
时 间 消 减 至 n 级。 考虑 对 了 在 Z。 上 的 非 参数 回归 ， 


E(Y\ Z, = zx.) = e + g,(z,) + Y Erg,(Z,) IZ =r] (9.8) 
H +T > Elg, (Z,) 1 Z, = z,] 的 存在 ,可 证 明 E(YI Z, = zx) 是 co + g,(z,) 的 一 
个 有 偏 估计 量 。Kim 等 建议 选择 一 个 工具 变量 w, (z) 使 得 
Elw (Z)I Z, =z,1]=1 

El w, (Z)g,(X,)1 Z, = z.] = 0,s # w (9.9) 

那么 可 以 得 到 E[w。(2;)Y.12, =z] =c, + gs。 (zs。)。 容 易 验 证 w。(z) = 

帮 (z6)f,(z。)/A(z5z。) 就 是 一 个 满足 式 (9.9) 的 函数 ,其 中 f/.(z,) 是 z= (ze, 
z._1,2ar1，…s24) 的 联合 概率 密度 函数 。 事 实 上 ,对 任意 随机 变量 ,我 们 有 


(zz ) 
下 [ex (z) | z.] = jeo i T ) 


_ ( f.Gz.)f.(z.) fz) 
JE- Wan) TG.) “ 


= f&n (za) dz, (9. 10) 
它 正好 是 二 关于 z。 部 分 的 边际 积分 。 将 式 (9. 10) 中 的 替换 为 &=1 可 以 得 到 





dz, 
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n = S $ g % = $ 


Elw, (Z) 1 Z.] = |f.(z.)dz。= 1. FIEF sa Hi E RA z.(Z,) ,那么 


Hi Ef w, (Z) 8, (Za) Za] = |z.C(Z.)/.(z.)dz, = Elg, (Z,)1 = 0。 于 是 式 (9.9) 
成 立 。 
容易 知道 


l < QDF .一 2 天 区 
= — > k| 2i a | — Y, 
Yal Zasha) k 2: | h, PERE I 


jzi 
VEREST E 25) 
a n h, s h 








—— 9. 11 
nh £ > JG...) J ( ) 


H E[u,(Z)YIZ, =z,] = co + g, (za) 的 一 个 一 致 估计 量 ,其 中 w, (z) = 
ACHTAR TETA 

注意 7。(z。) 可 以 解释 为 对 修正 过 的 Y. 关于 Z。 进行 回归 得 到 的 一 个 一 维 
标准 局 部 常数 估计 量 , 其 中 元 = Y f.G(z.)f.(Z, )/f(2Z,,Z, ) H Falzu) 估计 
co +g。(z。) ,自然 地 可 以 用 区 (z。) = Yala) +n” > Y.(z.) 来 估计 g。(z。) 。 
Kim 等 (1999 ) 中 定理 1 给 出 了 ga (zu) 的 偏 误 首 项 \ 方 差 误 和 渐 近 正 态 分 布 。 
Kim 等 证 明了 Z, (za) 的 渐 近 方差 比 g, (zu) 的 边际 积分 估计 量 的 渐 近 方差 多 了 
一 项 。 因 此 ,5。(z。) 与 边际 积分 估计 量 相 比 是 弱 有 效 的 。Kim 等 进一步 提出 了 


一 个 有 效 的 oracle 估计 量 , 下 面 我 们 将 对 其 进行 讨论 。 


Bal Za) 的 一 个 oracle( 有 效 的 ) 估计 量 被 定义 为 , 它 具 有 与 其 他 所 有 可 加 函 
数 均 已 知情 形 下 相同 的 偏 误 首 项 和 方差 首 项 ,定义 Yo = Y,- > z,(Z,) -co， 


考虑 g。(z。) 的 一 个 使 用 了 {2 ,Ye } 的 一 元 核 估计 量 , 即 ， 
S gf Zaj 一 Za\ vert 
Za h, Jrz 
| 
其 中 h。=6,n “(6 >0 为 一 常数 ) 。 应 用 第 2 章 得 到 的 结果 ,我 们 知道 (使 用 一 
个 二 阶 核 函 数 ) 
Vnh fg”™"(z) - g.(z.) - hèb (z) — N(0,V,(z,)) 依 分 布 收敛 
(9.13) 


其 中 b(z,) s| FE? Ga) HEA (BDSP (Ba) [Sa l2a) M V.(z.) = ro:(z.)/ 


Ban (z4) = 


(9. 12) 
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é m 8 = X gs w 8 为 


f.(z,) (0 (2z,) =var(YIZ, =z,))。 
可 以 使 用 一 个 局 部 线性 估计 量 而 非 局 部 常数 估计 量 来 估计 g。(z。)。 也 就 
是 说 , 令 &a 和 5 为 最 小 化 以 下 目标 函数 的 a 和 4。 的 值 : 


> Sa a)y a -b (Z, =)" 


那么 ,a 就 是 g. (z ) 的 局 部 线性 oracle 估计 , 它 的 渐 近 分 布 与 第 2 章 所 给 出 的 基 
本 相同 ,除了 将 式 (9. 13) 中 偏 误 首 项 变 为 (1/2) ks g) (z,)/f.(z,)。 

以 上 给 出 的 估计 量 z*”(z,) 是 非 可 行 的 ,这 是 由 于 s 关 a 时 ,co 与 g,(z,) 都 
是 未 知 的。 我 们 可 以 用 ER g. (2,) ,用 了 替换 co。 于 是 我 们 可 以 用 


q 
Yu” = Y, - > y,(Z,,h,) + (q - 1) Y 


来 将 换 Yu = Y, - > g.(Z,) -co ,其 中 


Í s< Z. -z f,(2,) 

nh | x< ETET , 

是 Ef w,(Z)YIZ, =z,] =c, +g,(z,) 的 一 个 一 致 估计 量 ,s =1,… ,gq。 
定义 ge” 为 式 (9.12) 中 用 了 “替换 Y"… 后 的 gs", Kim 等 (1999) 证 明 

f £u 具有 与 &*” 同样 的 偏 误 首 项 和 方差 首 项 ;因此 , 它 也 有 同样 的 渐 近 分 

fio Kim 等 假定 对 某 些 a >0,h,=an O h. = (an ” )。 注 意 这 里 选择 的 人 是 

HE h, 更 低 阶 的 。 他 们 证 明 , S EE 那么 


Vi EE a) g(a) -ERP GALa) ONO Vea) ) 依 分 布 收 全 


(9.15) 





y.(z,,h.,) = (9.14) 





we j=l 


其 中 VV.(z。) 的 定义 见 式 (9. 13) 下 方 。 

式 (9. 15) 表 明 可 行 估 计量 go" 具有 与 所 有 其 他 g,(z,) 均 已 知情 形 相同 的 
一 阶 有 效 性 (s 关 a)。 

Kim 等 (1999 ) 进一步 证 明了 一 个 原始 自 举 法 (wild bootstrap procedure ) 可 
以 用 来 更 好 地 逼近 &"""“(.) 的 有 限 样本 分 布 。 定 义 一 个 估计 出 的 可 加 函数 


aulhas hi) = Y + > mh 
a=l 


HEP g, Czashash,) = ë,(z,) 是 g,(z) AR HI ET Jipa Rh TE oX FE u, 可 以 用 立 
= Y, — £a (Z, ;h,,h ) 来 估计 .定义 中 心 化 残 差 (centered residual) X š = ë, — 
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n"! Xa, 。 则 自 举 法 误差 ur 可 由 两 点 原始 自 举 法 ?得 到 , 即 u* =[(1 +/5)/ 


2]i 的 概率 为 r= (1+/5)/(2/5),u/ =[(1 -/5)/2]u, 的 概率 为 1 -r。 接 下 
来 有 
Y; = 有 (Zi ji) T u 

其 中 使 用 了 另外 一 个 窗 宽 ho Kim 等 证 明 为 了 使 自 举 法 可 用 ,h, 的 阶 数 要 大 于 
h,o Kim 等 建议 选择 hh ~n h. =o(h,),3EB Z h, Æla t, n] RAE, 
其 中 0<8<1《X5。 这 样 就 可 以 用 自 举 样本 12Z,,Y;|) ,来 计算 gea) ,其 中 
g (za) 与 全 (z) 相 同 , 除 了 将 所 有 Y, 替换 为 Y; Kim 等 举例 证 明 可 以 
重复 生成 & (2,) 的 B 自 举 估计 并 用 他 们 的 经 验 分 布 来 逼近 &”…(z,) 的 有 
限 样本 分 布 。 


9.1.3 普通 反 向 拟 合法 
在 Za =z。 的 条 件 下 对 式 (9. 1) 取 条 件 期 望 , 我 们 得 到 (a =1,…,9) 

g.(z,) = B(Y,! Za = z.) — c - Y Ele, (Z, ) i Zu ==,] (9.16) 

A (9. 16) 显 示 和 迭代 过 程 是 恰当 的 。 令 G, ) 为 ge(z。) 的 某 个 初始 值 , 如 

i (z.) =0 RE EM (z,) 是 g。(z,) 的 边际 积分 估计 量 。 同样, ô = n > t. 


那么 迭代 过 程 由 下 式 给 出 。 对 a=l PT a =1 ,2,3,…， 用 下 式 来 计算 第 l 步 
ĝa (z4): 


a-l 
èi” (2,) = Ê(Y, | Zu = z.) -ê - J Êl (Z,) ! Zu =z] 
s=1 


- 5 Elg" (Zu) 1! Zu = z,] (9.17) 
其 中 ,对 随机 变量 4,,E[4,12, =za] 是 E[4,12, =z 的 (一 元 ) 核 估计 量 。 
E[4,1Z。 =z。] 可 以 是 局 部 常数 估计 量 》 Akung D k. EP k... = k((Z, 


- z。)/h。) ,或 者 也 可 以 是 E[4,1 Zu = z,] 的 局 部 线性 估计 量 。 
当 预 定 的 收敛 标准 达到 时 ,例如 ， 


D Za) -EZD 六 (可 (Za 
小 于 某 一 很 小 的 数 , 如 10-* 时 , 氨 代 过 程 终止 。 


© 更 多 关于 原始 自 举 法 的 详细 讨论 见 第 12 章 。 
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通过 在 上 述 过 程 中 应 用 一 个 局 部 线性 平滑 子 Opsomer 和 Ruppert( 1998 ) 以 
及 Opsomer (2000) 证 明了 售 计 的 偏 误 是 OCS M) , H 8, z.) 的 方差 首 项 如 下 
(x = [e (v) ae) 
var(#,(z,)) = IA + e(z 
Hp o’ =E(wi12,) =E(u;) BERI ) 。 
9.1.4 平滑 反 向 拟 合 法 


Mammen, Linton 和 Nielsen ( 1999 ) 提 出 了 一 个 平滑 反 向 拟 合 过 程 来 估计 可 
加 模型 (9. 1)。 其 思路 是 将 了 Y( 或 者 E(Y1z)) 投 射 到 可 加 函数 空间 上 。 < 


R) = YK Zi)/D K (Z3) 和 f(z) = nY K,(Z,,z) 分 别 表示 


E(YIZ =z) 和 f(z) 的 多 维 核 估计 量 , 其 中 z=z,…,z,。g1(z1),…,g8,(z,) 的 局 
部 常数 平滑 反 向 拟 合 估 计量 定义 为 那些 使 以 下 目标 函数 最 小 化 的 g, ,… ,g,: 


JEE) - Ga) - = gC) T?’ F(z) dz (9. 18) 
其 中 最 小 化 是 关于 所 有 满足 fg。(z。)f。(z。)dz。= 0 的 函数 gl) = c + 


> g.(z。) 进行 的 , f.(z。) = | 7 (a) dz, 是 边际 概率 密度 函数 /,(z。) 的 核 估计 
量 ,z。 三 ZI "92Zu-132au+19 ”GEgo 


式 (9. 18) 的 解 可 以 由 下 列 方程 组 来 刻画 (a = 1,…,g;Y = n" > Y,) ; 


gz) = fac) LE as, - S fec) aa -了 (9.19) 





falza) falza) 
0= fèe laa) Fala) az, (9. 20) 
注意 
(nh.) ' ks Y,k(z,,Z_,) 
fac) Ear, = —— E =G) (9.2) 
falza) faka) 


这 是 由 于 | [| A KCC, -Zu)/h,)dz, = 1, 其 中 8。(z。) 是 E(Y,1 Zu = z。) 的 局 
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E = w kd x 2 B w 35 


部 常数 估计 量 。 另 外 ,应 用 &。(z。) 的 可 加 性 及 [hr'k((z,- Z.) Zh.) dz, = 1 的 事 
实 ,q - 1 RRA fdz, 可 以 简化 为 二 重 积分 ,于 是 


> fè. (z) f (a) qa, = S fetay Sasan) 2.) 4z dz, (9.22) 


falza) alaa) 
其 中 faltaz) = (nhh) D EC (Zo 2a) /ha)k( (Zu -z,)/h,) 是 (zz,) 的 


二 维 边际 概率 密度 函数 的 核 估计 量 。 


由 式 (9. 19) , 式 (9. 21) 和 式 (9.22) 可 得 到 如 下 的 迭代 过 程 : 
Bs,) = 8.(z.) - Y fas) Le 
i Fala) 


a Y na Lei, A: 615 
š F(z) 
其 中 r=1,2,… ,表示 和 迭代 的 次 数 。 
Mammen 等 (1999 ) 推 导出 了 &。(z,。) 的 渐 近 分 布 。 为 了 表述 他 们 的 结果 ,对 于 


一 给 定 的 函数 B(z) ,我 们 首先 定义 常数 B。 和 一 元 函数 B。(z。) ( | Bala) dz =0， 


=1 ,9g) 为 
(PB B.) 
= arg min [ {18(z) -B -Bl(a) -… -Blz,) 2/G2)az] (9.23) 


在 Mammen 等 (1999 ) 给 出 的 正则 条 件 下 (也 可 参考 Nielsen 和 Sperlich 
(2005) ) ,可 以 证 明 


(nh.)'2[g,(z.) - g.(z.) - p.(z.)]  2N(0,6.(z.)) (9.24) 
IEH B, 在 式 (9 23) 中 定义 而 有 (定义 为 


= z: z. (z) afla) ， l 2 
(z) = < >| | 
B s,(z,) = ko? (z,)/f,(2,) (r, = [Cv) dv, x« = fE Co) do) ' 
最 后 ,可 以 用 下 式 来 估计 g(z) = o + X g,(z,): 


(z) = Y+ > Bz,) (9.25) 


第 9 章 可 加 和 平滑 ( 变 ) 系 数 半 参 数 模型 


此 外 ,Mammen 等 (1999 ) 证 明了 &,(z,) 的 不 同 组 成 部 分 是 渐 近 相互 独立 
的 :因此 ,&(x) 的 渐 近 分 布 易 从 式 (9.24) 中 得 到 (见习 题 9.1)。Mammen 等 也 
讨论 了 当 2Z 具有 紧 支 撑 时 边界 修正 核 (boundary corrected kernels ) 的 应 用 。 

Mammen 等 (1999) 也 考虑 了 使 用 g,(z,。) 的 一 个 局 部 线性 估计 量 ,使 得 目标 
函数 (9. 18 ) 变 为 


fi Y, =e cu < A 一 TAi - Z.)] K,(z,2,) dz (9. 26) 


其 中 最 小 化 是 关于 可 加 部 分 如、 所 有 &。(z。) (满足 |8。(z。) Jalea) dz, = 0) ,以 及 


所 有 0.(z.) 进行 的 ,9.(z。) 是 Bulza) 的 一 阶 导数 。 
Mammen 等 (1999) (也 可 参考 Mammen 和 Park (2005) ) 证 明了 & 与 ô, 满 293 
足下 述 等 式 : 
Pa s" K I paa | 
0.(z.) 0 \g.(z.) 
"e TPE G y Jš. (x, x, 1 pais Jaz, 
0.(z.) 


其 中 
& = — 5 Y, - > fe, JÂ. (z) dz, 


- A (9.27) 
iii P: a i (9. 28) 
Za =n z, | 
Pa -z (e. as 
S.(z,,z.) = n” Y hss Za) hb (z...) 
d I yE (9. 29) 
Zai T Zas (z, - Z,)(Z., - z,) 1 


falza) =n” S k, (t, 2a) (Zu -z,),and 


falsa) = n” > k,.(z,,Z,) 
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经 5 > z: = = A = Ls: 


另外 ,有 (z ) 和 6.(z.) 是 通过 Y 对 2 回归 得 到 的 局 部 线性 拟 合 ;也 就 是 说 , 它 
们 最 小 化 了 目标 函数 


> [Y, - #.(z.) - 0.(z.) (Zu — z.) ]k,.(z,,Z,) (9.30) 
通过 施加 正则 化 条 件 
fa ze) (a) ds, + f, Cafi (z.) az, = 0 (9.31) 


ë, (2), (2) ,以 及 6(z), ,9(z) 的 定义 可 以 变 为 唯一 的 。 
平滑 反 向 拟 合 估计 是 经 由 式 (9.27) 的 迭代 应 用 得 到 的 ,其 中 , 当 左 边 部 分 
是 第 [1+1] 步 迭代 时 ,右边 部 分 是 第 [1+1] 或 者 第 [由 步 ,这 取决 于 是 <a 还 是 


; >a。 注 意 由 式 (9. 31) 得 到 6 = n” X Yo 


Mammen 等 (1999 ) 推导 出 了 &。(z。) 的 渐 近 分 布 。 下 面 我 们 陈述 一 下 Niels- 
en 和 Sperlich ( 2005 ) 给 出 的 一 个 简单 的 版 本 。 


"h. |z...) = gala) = va = Kè Spala) |E NCO, V.C) ) (9.32) 
其 中 
v = feala) kr, (2u 10) fa (e) dvdz, 


Halta) = EP (Ea) - |z (za).(z,) dz, 
V.(z,) = xo, 2a) /f(z,) 
K, = [oa = LAOL 
也 可 以 通过 和 矩阵 形式 来 表示 其 联合 分 布 , 即 
¿mh [ea) - gG) - w -h ma )] 
: SN(0,diag(V.(z,))) 
Vnh, [B,C2,) -gz,) - v, = 2 22, (2,)] 


(9.33) 
其 中 0 = (0,…,0)' 是 g x1 的 零 向 量 ,diag(V(z,)) 是 一 g x q 的 对 角 和 矩阵 ,其 第 
a 个 对 角 线 元 素 等 于 V.(z,) (a =1,…,g) ,而 非 对 角 线 元 素 均 为 零 。 
式 (9. 33) 表 明 &。(z。) 的 各 个 组 成 部 分 是 渐 近 相互 独立 的 。 
Nielsen 和 Sperlich (2005 ) 建议 使 用 去 一 最 小 二 乘 交 错 鉴定 法 来 选择 平滑 参 
数 ,而 Mammen 和 Park ( 2005 ) 则 推荐 使 用 最 小 化 惩罚 残 差 平方 和 (penalized 
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ë g w & AJ g$ š& b 8 


sum of squared residuals ) 方 法 , 即 他 们 推荐 选择 h, ,… sh, 来 最 小 化 目标 函数 
PLS(h) = RSSCA) [1 125 -i k(0)] (9. 34) 
其 中 
RSS(h) = n` S [r -6 - ACRI (9.35) 


本 章 我 们 并 不 讨论 有 交互 项 的 可 加 模型 的 核 估计 ,或 者 一 般 可 加 模型 的 导 
数 估 计 。 然 而 ,读者 可 以 在 Sperlich , Tjøstheim 和 Yang( 2002) 以 及 Yang, Sperli- 
ch 和 Hirdle(2003 ) 中 找到 相关 的 讨论 。 男 外 ,对 于 可 加 回归 模型 的 有 效 和 快速 
样 条 反 向 拟 合 核 平滑 (spline-backfitted kernel smoothing) ,可 参考 Wang 和 Yang 
(2005). 


9.1.5 有 连接 函数 的 可 加 模型 
一 个 更 一 般 的 可 加 函数 是 有 一 个 已 知 连 接 函 数 的 可 加 模型 ,如 下 : 
Y, = C| co * py u, (9. 36) 
其 中 6(') 是 一 已 知 的 连接 函数 。 当 C(O) 2 PS 3KDP,Ç(9.36)iB 4k Ñ 
(9. 1)。 在 实际 中 ,6G(: ) 可 能 是 指数 函数 或 对 数 函数 等 。 
Linton 和 Hirdle( 1996 ) 提 出 了 一 种 边际 积分 方法 来 估计 (9.36)。 令 mm(z) 
=E(Ylz),M(:) =G“(*); 那 么 式 (9.36) 可 以 写成 
M[m(z)] = c, + Faa) (9.37) 
定义 
balza) = [M[m(z.,:.) a(z) dz, (9.38) 


其 中 Za = (z, , "° sd 5841 9 ° ,20 ) ,fo (Za) 为 Za 的 概率 密度 函数 。 从 式 (9. 38) 
我 们 知道 $, 与 z. 的 不 同 只 相差 一 个 可 加 的 常数 coo Linton 和 Hiirdle(1996 ) 建 
议 基 于 以 下 多 维 局 部 常数 核 估计 量 来 估计 由 。 : 
n` E Y,k, (z. ,2.;) W, (asai) 
A Y k. (sz.,Z,)W, (s,,2.) 
其 中 大 ) 为 一 个 一 元 二 阶 核 函 数 , 且 
W, (x) = [| "hwl (z, - Z,) Zh,) 


其 中 w(*) 是 d >q - 1 BHH R 38 ( q > 2 时 为 高 阶 核 )。 这 时 ,可 以 用 式 
(9. 38) 的 样本 模拟 来 估计 由 。(z。) , 即 


m (Zasa) = (9.39) 
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B) = EY Mlan Za) Sly) (9.40) 


= M 为 恒 等 函 数 时 ,$,(z, ) 对 Y, 是 线性 的 。 然而 ,一般 地 ,$.(z, ) 是 Y, 的 
非 线 性 函数 。 常 数 项 c 的 估计 为 


do = Ly 5 Pal Zai) (9.41) 
H g,(z,) 由 下 式 来 估计 : 
a(z.) = $.(z.) - ë, (9.42) 
m(z) 的 最 终 估 计 由 下 式 给 出 (C=M-” ): 
(z) = G[ TRU) +ë] (9.43) 


在 某 些 正则 条 件 下 ,Linton 和 Hirdle(1996 ) 证 明了 如 下 结果 。 


,人 (9.44) 
其 中 


palz.) = (K,/2) | g® (z, ) [MI Em) Salza ) dz。 
+ 2g” (2,) [MU [m(z)] As „)dz, 


V.G(z.) = Kf (M [m(2) DPE C) —— 
V.(z.) 的 一 个 一 致 估计 量 为 


JGD 


-yia 


其 中 
= n”! FMV [mss Za) lwla Zu) 
k, (z, - Zai) W, (z, - Zai) 
Wh Za, Zu |) = ———  T— x 
sk G - Z.) Wilz, Zu) 
Hù =Y, -m(Z,). 
正如 Horowitz 和 Mammen (2004 ) 观察 到 的 那样 , 上述 边 际 积分 的 基本 估计 
量 有 一 个 不 好 的 性 质 , 即 对 w(: ) 必 须 应 用 一 个 更 高 阶 的 核 ,所 取 阶 数 与 4 有 关 
( 即 q 越 大 ,w(:) 要 求 的 阶 数 越 高 )。 这 是 由 于 ,在 初始 阶段 ,人 们 必须 非 参 数 
估计 一 个 g 维 函 数 m(z)( 即 在 初始 阶段 没有 施加 可 加 结构 )。Horowitz 和 Mam- 
men 建议 初始 期 使 用 级 数 方法 来 估计 m (z) ,然后 再 用 局 部 线性 核 方 法 来 估计 
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各 个 g.(: ) 函数 ,我 们 将 在 第 15 章 讨 论 Horowitz 和 Mammen 的 方法 并 介绍 非 参 
数 级 数 方 法 。Horowitz 和 Lee( 2005 ) 进一步 把 Horowitz 和 Mammen 的 结果 扩展 
到 了 可 加 分 位 数 回归 模型 上 。 


9.2 一 个 可 加 的 部 分 线性 模型 


尽管 上 述 介 绍 的 可 加 模型 有 可 以 不 用 遭受 维 数 诅咒 的 优点 ,但 是 它 却 是 一 
个 很 有 局 限 的 模型 ,这 是 因为 它 不 允许 交互 项 的 出 现 。 一 个 可 加 部 分 线性 模型 
可 以 避免 这 个 问题 且 能 保留 “一 维 " 非 参数 的 收敛 速率 。 考 虑 一 个 具有 下 列 形 
式 的 模型 : 
Y, = Bo + XB +g,(Zu) + + g,(Z,.) + u, (9.45) 
Hp X, E: q x 1 随机 变量 向 量 ,B= (B,,…,B,)' 为 gq x1 未 知 参数 向 量 ,X, 可 以 
包含 涉及 ( 2,… ,2,) 的 交互 项 ,B。, 是 一 标量 参数 ,所 有 的 Z, 都 是 一 元 连续 变 
量 ,g。(')(a =1,…,4) 为 未 知 平滑 函数 。 观 测 值 1 世 ,不 ,21,,… ,2Z,1 ;都 是 独 
立 同 分 布 的 。 我 们 施加 条 件 下 [g。(Z。)] =0(a =i,…gq) 来 识别 各 个 g,(*),…， 
# Cebo 
定义 e, = X,-E(X,IZ,) RIK AX REZ, ,2,) 的 确定 性 函数 , 若 
E[ vv, ] 是 正定 的 (9. 46) 
有 了 条 件 (9. 46) ,就 可 以 用 第 6 章 讨论 的 方法 来 得 到 g 的 一 个 Vn 一 致 估计 


量 , 记 为 8 。 然 后, 人们 通过 把 模型 改写 为 以 下 形式 就 可 以 估计 可 加 函数 : 
F -Xp =e + S elZ) + ë, 


其 中 si =u, +X) (B-B) HFB -6B=0,(n 2) 比 非 参数 可 加 函数 估计 量 的 
收敛 速度 更 快 , 因 此 当 B 已 知 时 对 应 的 g。(z。) 的 非 参数 估计 量 也 具有 同样 的 渐 
近 性 质 。 因 此 ,它们 具有 和 9. 1 节 讨 论 的 非 参数 可 加 模型 (没有 线性 部 分 ) 同样 
的 渐 近 分 布 。 

我 们 正式 总 结 这 个 估计 量 如 下 。 定 义 w =X-E(X12,)。 当 E(wvv' ) 正 定 
时 ,可 以 用 如 下 简单 的 二 步 估计 法 来 估计 这 个 模型 : 

(i) 首先 ,忽略 掉 模 型 的 可 加 结构 并 用 Robinson(1988 ) 的 方法 来 估计 B, 即 
F X, - É( X, 1Z,) W Y, -天 (站 12,) 进 行 回归 得 到 的 一 个 半 参 数 估计 量 , 记 为 


B, 其 中 雇 (Y.12,) 和 启 (X,12,) 分 别 为 E(Y.,12,) 和 E(X,12,) 的 核 估计 量 。 


(ü) 其 次 ,改写 模型 为 Y -X B =g,(Zi) +" +g (Z,) +s,, 并 如 9.1 节 
讨论 的 那样 估计 可 加 函数 gC) o 
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B 的 渐 近 分 布 在 第 7 章 中 已 经 讨论 过 ,而 相应 的 g。(z,) 的 估计 量 , 记 为 
Balza) ,其 渐 近 分 布 和 9.1 节 中 所 讨论 的 相同 。 这 是 因为 6 -B=0,(n-”)， 


其 收敛 速度 比 非 参数 的 收敛 速度 要 快 ; 因 此 用 B 来 替换 B 并 不 影响 &,(z,) 的 浙 
近 分 布 。 

以 上 过 程 的 优点 是 计算 上 比较 简单 。 然 而 ,这 种 方法 也 存在 一 个 问题 。 当 
E(viv, ) 为 非 正定 时 ,这 个 过 程 就 不 能 用 来 估计 BB。 考虑 g =2 的 简单 情形 ,模型 
具有 以 下 形式 : 

Y, = Py + (Z,,Z,,)P +g (Zu) +gi(Zu) * u, (9.47) 
Jerh f] X, = Z,,Z,,。 在 这 种 情况 下 ,X, 是 Z, 的 确定 性 函数 ,日 有 v = X, - 
E(X,12,) =X, -处 ,=0。 也 即 以 上 过 程 是 不 能 应 用 于 此 情形 的 。 

然而 ,条件 (9. 46) 是 一 个 很 强 的 假定 , 它 排除 了 ;为 (21;,… ,2,) 的 确定 
性 函数 (但 非 可 加 的 ) 的 情形 。 例 如 ,对 于 4 =2 我 们 希望 使 了, 含有 交互 项 如 扎 
=2Z1;22;, 但 这 样 条 件 (9. 46 ) 就 不 再 成 立 。 

Fan 等 (1998) 以 及 Fan 和 Li(2003 ) 提 出 了 一 个 基于 边际 积分 方法 的 B 的 
Vn 一 致 估计 量 。 他 们 的 方法 具有 不 需要 依赖 条 件 (9. 46) 的 优点 。 然 而 ,如 前 所 
述 ,边际 积分 方法 在 计算 上 是 非常 元 余 的 。Schick(1996 ) 以 及 Manzan 和 Zerom 
(2005 ) 提 出 使 用 一 个 计算 上 有 效率 的 方法 来 估计 B。 下 面 我 们 来 描述 Manzan 
和 Zerom 的 方法 。 


9.2.1 一 个 简单 的 二 步 方法 
对 任意 随机 变量 (向 量 ) £ E X 
£, = E[£ao,(Z,) | Z.] = JETE: | Z, = z]/.(z,) dz, 


HP w, (2) = f. (z. )f.(z,)/f(z. z.) ,a = 1,…,9q, 并 定义 专 在 可 加 函数 空间 上 
的 投射 为 


E,(&,) Y. (9.48) 
将 投射 (9.48) 应 用 于 式 (9.45) 可 得 。 
E,(Y,) = E,(X,)'8 + S" alz) (9.49) 
用 式 (9.45) 减 去 (9.49) ,我 们 得 到 
Y, - E(Y) = (X, - E(X.) )'B + ù, (9.50) 


我 们 可 以 用 最 小 二 乘法 来 估计 B。 然 而 ,我们 必须 先 得 到 E,( Y.) #l E,( X.) 
的 一 致 估计 量 。 由 9. 1 节 给 出 的 结果 ,我 们 知道 它们 可 以 用 下 式 被 一 致 估 
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计 出 : 
É,(Y,y = Y Y. É (X ) = Si (9.51) 


其 中 
E PE 84 Z BO 
Eai m KAN E I CC 
且 由 式 (9.25) 中 =Y, 或 &, =XX, 我 们 可 分 别 得 到 É, ( Y.) A É, ( X.) ç 
因此 ,一 个 B 的 可 行 估 计量 为 
B SU tun Sa. POE P (9.53) 





= 1,.…,g (9.52) 


HE Sep = n` F RD: ,Sc = Sc co Manzan 和 Zerom(2005 ) 给 出 了 B 的 渐 近 分 


布 如 下 。 
定理 9.2 在 与 Manzan 和 Zerom(2005 ) 给 出 的 相同 的 正则 条 件 下 ,有 
Vn(B - B) — N(0,X) 依 分 布 收敛 
其 中 = p'a, = E[nn],n: = X, - E,(X,) ,0 = Eunn: ] ° 
3 的 一 个 一 致 估计 量 由 = DAD 给 出 ,其 中 


$ = n` x [ X, - É,(X,) ][ X, £,(08)1 


0 = "i 5 al[x, = E,(X,)][X. = É, (X;)]' 


à, = Y, - É, (Y,) - (X, - É, (X,)) 6 

当 误差 是 条 件 同 方差 时 ,对 这 个 模型 ,6 在 其 渐 近 方差 达到 半 参 数 有 效 边界 
的 意义 下 是 半 参 数 有 效 的 ( 见 Chamberlain( 1992) ) 。 

正定 的 D 是 B 的 一 个 识别 条 件 。 若 ;不 是 Z ,的 可 加 函数 , 它 允 许 外 为 
(Zusts Zu) 的 确定 性 函数 。 更 确切 地 说 ,考虑 在 式 (9. 47) Pq=2 H 
X, = 21,2,; 的 简单 情形 ,如 下 : 

Y, = ñ, + (Z,,Zx)BË + g, (2Z,,) + g,(Z,,) + u, (9.54) 

模型 (9. 54) 是 不 受 维 数 诅咒 的 影响 的 ,这 是 由 于 它 只 涉及 了 一 个 一 维 的 非 
参数 函数 g,(*)(a=1,2)。 同 样 , 它 比 没有 交互 项 的 可 加 模型 更 一 般 化 ( 即 式 
(9.45) 允许 交互 项 以 参数 化 形式 进入 模型 ) 。 

继续 这 个 简单 情形 (g =2) ,我 们 接 下 来 估计 各 个 非 参数 部 分 g,(z,)。 给 定 
vn 一 致 估计 量 B ,我们 可 以 重 写 式 (9. 45 ) 为 


二 (9.55) 
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其 中 e, =u, +X; (B-B). 

式 (9.55) 实 质 上 是 一 个 以 Y, - X ñ 为 新 的 因 变 量 , 以 [w +X (8 - B) ] 为 新 
的 ( 复合) 误差 的 可 加 回归 模型 。 因 此 ,人 们 可 以 通过 对 式 (9.6) 和 式 (9.7) 讨 
论 的 部 分 线性 模型 进行 边际 积分 来 估计 g。(z。) ,其 中 也 88 46 8 Y, -XB — 
&,(z, ) 表示 得 到 的 g。(z,) 的 估计 量 。 从 定理 9.1 和 -B=0,(n-”) 的 事实 容 
易 知道 8.(z,) 的 渐 近 分 布 与 定理 9. 1 给 出 的 z,(z,) 的 渐 近 分 布 是 相同 的 。 


RED p。 可 以 用 po = 了 -无 有 来 一 致 估计 ,其 中 了 = n> YX = 
aS Xo RISER ELY, IX =x, Zu = s, Z, = s] 可 以 用 


É, + x 月 + 名.(z。) 来 估计 ,误差 项 用 = Y, - É, - XÊ - Y 2.02.) 来 
估计 。 


9.3 一 个 半 参 数 变 (平滑 ) 系数 模型 


在 前 面 我 们 讨论 了 一 个 部 分 线性 模型 ,形式 为 
Y, = a(Z,) + Xib, + u, (9.56) 
其 中 a( ) 是 一 未 知 函 数 ,B。 是 一 r x1 未 知 参数 向 量 。 
本 节 中 我 们 考虑 一 个 更 一 般 的 半 参 数 回 归 模 型 ,所 谓 的 半 参 数 平滑 系数 模 
型 , 它 典 套 了 部 分 线性 模型 作为 一 种 特殊 情形 。 平 滑 系 数 模型 形式 为 
Y, = a(Z,) + X. B(Z,) + u, (9.57) 
其 中 B(z) 是 关于 z 的 未 指定 平滑 函数 的 向 量 。 当 B(z) =B, 时, 式 (9.57) 退 化 
为 部 分 线性 模型 (9. 56 ) 。 
例如 , 当 为 一 个 截面 生产 函数 建 模 时 ,平滑 系数 模型 是 适合 的 ,模型 右 端 变 
量 是 劳动 力 、 资 本 和 厂商 的 R&D 投入 。 如 果 我 们 令 X, = (labor, ,capital, ) ,2; = 
R&D, ,那么 式 (9. 57) 意味 着 劳动 力 和 资本 投入 的 系数 可 能 随 着 厂商 的 R&D 投 
入 而 变化 。 于 是 劳动 力 与 资本 两 者 的 边际 生产 均 依 赖 厂商 的 R&D 值 ,结果 , 规 
模 报 酬 可 能 也 是 R&D 的 函数 。 部 分 线性 模型 (9. 56 ) 假定 斜率 系数 B 关于 
R&D 是 不 变 的 ,于 是 R&D 变量 只 能 影响 生产 前 沿 水 平 。 这 种 情况 下 ,R&D 被 
称 作 对 生产 前 沿 具 有 “中 性 "效应 。 与 式 (9. 56) 不 同 ,平滑 系数 模型 (9.57) fb 
VF R&D“ 非 中 性 "地 影响 随机 前 沿 。 


9.3.1 平滑 系数 函数 的 一 个 局 部 常数 估计 量 
为 了 避免 引入 过 多 的 符号 ,我 们 稍微 改变 一 下 符号 定义 ,将 式 (9. 57) 表 达 
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为 更 紧 致 的 形式 
Y, = X; B(Z.) + u, (9.58) 
其 中 站 ;为 一 p x 1 向 量 ,可 能 还 包含 一 个 常数 作为 其 第 一 个 元 素 ( 这 样 就 与 式 
(9.57) 等 价 ) B) H z 的 一 个 p x1 维 函数 ,Z, 的 维 数 为 9。 
对 式 (9. ss) NS NR X, 并 取 期 望 E(…12,) 得 到 E[ XY, 1 Z, ] = 
E[ XX; ]B(Z,) ,有 
B(z) = [E(X;X; | z)] 'E[X,Y,! z] (9.59) 
AEN ieai E Er keq 


ñ(z) | ESI K(f =] PEL En 


上 述 局 部 最 小 二 乘 估计 量 背后 的 直觉 应 该 是 显而易见 的 。 在 z 为 一 标量 ， 
KC- ) 为 均匀 核 的 情形 下 , 式 (9. 60) 变 为 
BDL p xx 2. xY, (9.61) 


(9.60) 








这 里 ,B(z) 只 是 一 个 也 对 马 Na a. RENH, 使 用 的 观察 集 为 (成 ,也 ) ， 
其 相应 的 Z 接近 z(12, -zl<h)。 由 于 B(z) 是 z 的 一 个 平滑 函数 , 当 12, -zl 比 
较 小 时 ,1B(2,) -B(z) 1 也 比较 小 。 当 B(2,) 很 接近 B(z) 时 ,nh 很 大 这 个 条 件 
保证 了 我 们 有 足够 数量 的 观测 值 落 在 区 间 12,-z1<h 中 。 因 此 ,在 
h—0,nh—% (Z,e 民 ' 时 ,nh,…h, 一 % ) 这 样 的 条 件 下 ,我 们 能 够 证 明 局 部 最 小 
二 乘 估计 量 有 是 B(z) 的 一 个 一 致 估计 量 。 

下 述 定理 建立 了 B(z) 的 一 致 性 和 渐 近 正 态 性 。 

定理 9.3 在 一 定 的 正则 条 件 ( 见 Li,Huang,Li 和 Fu(2002)) 下 ,对 z 的 一 
固定 值 且 满 足 f(z) >0(f.(: ) 为 Z, 的 边缘 概率 密度 函数 ) ,我 们 有 


nh h [B(z) - B(z) - $ KB, (2) ]> NCO) 依 分 布 收敛 
其 中 假定 M(z) Z Zf(z)E[X XI | Z, = z] 是 正定 的 ,B,(z) = KM(z) 
E[X.X; (BSX ZAAN Z, = z) + (1⁄2)/.(Z.)8,(Z)] 1 z] o = [ozd， 
B.(z) = 98(4z)Vax ,B (z) = 0°B(z) /02 , Q, = M(:) yY M(z)`,V, = E) 
E[X;X; o° (X,,Z,) | Z, = z] ,o? (X,,Z,) = 下 (1X ,2Z)。02. 的 一 个 一 致 估计 量 
在 习题 9.2 节 中 给 出 。 
定理 9.3 的 证 明 在 9.3. 5 节 中 给 出 。 


9.3.2 平滑 系数 函数 的 一 个 局 部 线性 估计 量 
下 述 讨论 中 的 模型 与 式 (9. 58) 给 出 的 模型 是 相同 的 。 为 了 表述 简洁 ,我 们 
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假定 Z, 为 一 标量 ,于 是 p. (z) 的 局 部 线性 估计 量 为 Bp,(z) = á, (z), k th 
1(&,(z) ,6,(z) ) 1 最 小 化 了 下 述 加 权 平 方 和 : 


n P 


> [Y,— > la, +b,(Z, - z)] X,] K,(Z,,z) (9.62) 


i=l s=1 


HEP k (+) =h ''K(-/h), 
令 5(z) =(a, (z), =-,a,(2),bi (2), ,b,(2))' X$ XRR— n x2p 矩阵， 
HB ITALA CZ -2)), 8 KOB— XH EBE CERO n) ,其 第 i 个 对 角 线 
上 元 素 为 K,(Z, -z) ,同时 7 = (Y, Y.) ,那么 ,由 式 (9. 62) ,根据 最 小 二 乘 
理论 ,5(z) 的 估计 量 为 
8(z) = (X KX) ' XKY (9.63) 
注意 8(z) = (&,(z),…,6,(z),b,(z),…,b,(z))', 其 中 a,(z) 估 计 的 是 B,(z)， 
b,(z) 估 计 的 是 8(z)/6,。 
为 了 导出 局 部 线性 估计 量 8(z) 的 渐 近 分 布 ,我 们 首先 引入 一 些 符号 , 令 
Su。0， S, 1 $ú 
S. = i sobr = T,(z) = BË: ] 


其 中 ,对 J =1,2， 


Saj = S, ,(z) = n” Y XX'((Z, -z)/h)'K,(Z,,z) 


Taj = T. (z) = 元 YXY((Z - z)/h)!K,(Z, ,z) 


另外 , 令 
6(z) = (ay, G, ,by s. b.) 
6 = ó(z) = (â, (z), =-,â, (z), (z), b. (z))' 
使 用 这 些 符 号 我 们 可 以 将 5(z) 写作 


5(z) = 五 -S-T (9.64) 
其 中 五 = diag|11,…,1,h,…,h|, 它 的 p 个 对 角 线 元 素 为 1, 男 外 p 个 对 角 线 元 
KA ho 
为 了 符号 表示 方便 ,对 非 负 的 整数 j, 我 们 定义 
i = fk) ae, p, = AOL 
此 外 
Q(z) = (u,,),o = E[ X, Xl Z, = z] 


我 们 将 假定 核 函 数 kO.) 是 对 称 的 ,于 是 jw，= fuk(u)du = 0, 同时 我 们 也 
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假定 m = [Cu) du = 1, 那么 对 于 每 个 0<j<3 和 1<l1,m<p, 可 以 证 明 ( 见习 
题 9. 4) 

E[S,,(z)] —f(z)()(z)gu;,nhvar(S, (2)1,) —f(z)o,ú,, (9.65) 
HPO) Z 的 概率 密度 函数 。 式 (9. 65 ) 的 一 个 结果 是 


S, > f(z)S, S,, >n, f(z) Q(z) (9.66) 
其 中 
2(z) ， 0 
S = 
| 0, py 


Cai,Fan 和 Yao(2000) 证 明了 如 下 结果 : 
定理 9.4 在 一 定 的 平滑 和 和 矩 正 则 条 件 下 , 另 假定 /(z) > 0, 那么 
有 (a(z) = (alz) ,=—-,a,(a))) 
V8[a(z) - ala) - aaa) NO0,0(2)) 依 分 布 收 全 


其 中 a”(z) 是 个 p x1 向 量 ,其 第 s 项 为 a (z) = @a,(z)/àz ,其 中 
@(z) = vA (z) (° (z) A (z) /f(z) 
(° (z) = E[X,X;o*(X,,Z,) | Z, = z] 
定理 9.4 意味 着 
/m|a,(2) - a.(z) -各 psa 中 (z)] 一 N(0,V。) 依 分 布 收 全 


其 中 Yo =v, (z) R" (2) Q(z)e,,/f(z) ,e,, 是 一 p x1 向 量 ,其 第 :项 为 1， 
其 余 为 0。 

Xue 和 Yang(2006) 给 出 了 一 个 替代 的 方法 来 估计 半 参 数 变 系数 模型 (如 
多 项 式样 条 ) 。 


9.3.3 参数 平滑 系数 模型 的 检验 


4 B(z) =Bo(z) 具 有 已 知 的 函数 形式 时 ,可 以 用 参数 方法 来 估计 这 个 模型 。 
例如 ,车 B(z) =p, 为 参数 常数 向 量 , 我 们 可 以 用 普通 最 小 二 乘法 来 估计 模型 。 
车 B(z) =Bo(z,y) ,其 中 Bo(.) 具 有 已 知 的 函数 形式 ,y 为 一 有 限 维 参数 ,如 果 
模型 对 参数 是 非 线性 的 ,我 们 可 以 用 非 线 性 最 小 二 乘 方法 来 估计 模型 。 下 面 我 
们 讨论 怎样 检验 几乎 处 处 B(z) =B,(z,y) (对 z) ç 

1. 一 个 基于 局 部 常数 估计 量 的 检验 

S y H y 的 一 个 Vn 一 致 估计 量 且 B,(z) =B,(z,y) ,可 以 构造 一 个 基于 6(z) 
和 局 (z) 的 差 的 加 权 平方 积分 的 检验 统计 量 ; 
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m = 5 & ° = 1 四 z 


1, = [{[B(z) -Bo(z)]'A.[B(z) - Á (2) 1 az 
其 中 A, — 4 EEEE, BC) 是 一 个 局 部 常数 估计 量 , 它 有 一 个 随机 分 母 
D,(z) ,这 将 使 对 工 的 渐 近 分 析 复 杂 化 。Li 等 (2002) 建议 选择 4， = 
D,(z) 'D,(z) 来 移 除 1 中 的 随机 分 母 。 通 过 这 样 选择 4, 我 们 有 


I, = {1D.C2) [Bz) -应 (z)]1D.(z)[6(z) -Bolz) ldz 


x > [RLY - XB ]X,[ y, - Xj Éo (z) Ks Ki dz 


1 toaa T 
= — > X, Xaa kK, 
J 


2 
n i 


其 中 必 = Y, -XBolz) Kias, = T] h 'k( (Z, - Z,)/h,) Iñ] k(v) = [kt —v)du 


EA kO) 推导 出 的 二 重 卷 积 核 。 
事实 上 并 没有 必要 去 计算 卷 积 核 ,这 是 由 于 可 以 简单 地 用 一 个 标准 二 阶 核 
K(:)3684Ç KO) Ah ET PA BI 1, 中 i=j 的 项 ,这 样 检验 统计 量 在 原 假 
定 下 将 渐 近 以 零 为 中 心 。 因 此 ,Li 等 (2002) 给 出 的 最 终 的 检验 估计 量 为 
E ATT 
l, = 2 之 XX K... Äpu 


Li 等 (2002 ) 进一步 证 明了 在 原 假 定 下 ， 
j. = nhh) i] fi NGO0,1) 
其 中 
"T _ 2h ih, < , y Na 2 2.2 
0 = — y Y (AN 0 Ry 


也 可 以 通过 原始 自 举 法 来 逼近 j, 原 假 定 下 的 分 布 。 计 算 自 举 检验 统计 量 的 准 
确 步 又 留 作 一 个 习题 。 


2. 一 个 基于 局 部 线性 估计 量 的 检验 
Cai, Fan 和 Yao(2000) 建 议 基于 参数 与 半 参 数 残 差 平方 和 的 比较 来 检验 参 
数 变 系数 函数 。 定 义 


RSS para = n” 2 CY; - B, (Z,,%)X, 一 … - B,(Z,,y)X, ]° 


RSS,-。 = p? > RA - B, (Z,)X,, ii - B,(Z,)X,, l? 


Q@ 这 里 的 表达 式 与 Li 等 (2002 ) 中 的 完全 相同 ,注意 Ka y= (h h,) Kz — z.) /h) 。 
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其 中 B,(z) =&,(z) 是 在 9.3.2 节 中 讨论 的 B,(z) 的 局 部 线性 估计 量 。Cai, Fan 
和 Yao 提出 使 用 以 下 检验 统计 量 来 检验 几乎 处 处 B(z) =Bo(z,y) 的 原 假定 : 
TS, = [RSS m = RSS,，,]/RSS。， = RSS, /RSS U — 1 
在 实际 中 ,TS, 值 较 大 时 拒绝 原 假 定 。Cai,Fan 和 Yao 提出 使 用 如 下 的 参数 自 举 
过 程 来 评测 TS, 检验 的 已 值 。 
(i) 从 中 心 残 差 la, -n > û lia 的 经 验 分 布 生成 自 举 残 差 u ,其 中 


ü, = Y, - ñ, (Z,) X, = - B,(Z,)X, 
定义 
Y; = Bi(2Z 7) 有 十 … +B,(2,,7)X, + u 

(ü) 基于 自 举 样本 |2,,X, YI | 来 计算 自 举 法 统计 量 TS: ,重复 步骤 (i) 
与 步骤 (ii) 非 常 多 次 ,例如 已 =399。 

(iü) "4 TS, 大 于 自 举 统计 量 {1TS。 j K a 上 分 位 点 时 ,拒绝 原 假定 。 

也 可 以 在 步骤 (i 中 使 用 原始 自 举 方法 的 两 点 分 布 来 生成 上 面 的 ww , 即 u; 
=[(1 -5)Z2] 记 的 概率 为 r= (1+V)X2),uw = [(1 +/5)/2 ]à, 的 概率 
为 1 -r, 于 是 得 到 的 自 举 统计 量 对 于 条 件 异 方差 的 出 现 是 稳健 的 。 

我 们 推荐 感 兴趣 的 读者 参考 Yang, Park , Xue 和 Hšrdle (2006) , 它 提供 了 一 
个 基于 边际 积分 方法 针对 可 加 模型 中 变 系 数 结构 的 替代 检验 过 程 。Fan 和 
Zhang(2000) 推 导出 了 变 系 数 模 型 的 同步 置信 区 间 , 这 也 可 以 用 于 检验 假定 。 


9.3.4 部 分 线性 平滑 系数 模型 
我 们 可 以 将 前 述 模型 推广 到 部 分 线性 框架 ,考虑 以 下 形式 的 模型 : 
Y, - Wi y + XB(Z2,) + u, (9.67) 
其 中 y 是 一 个 未 知 (常数 ) 参 数 向 量 ,而 B(zi) 是 平滑 系数 函数 。 
车 YY 已 知 ,我 们 能 改写 式 (9. 67 ) 为 
Y, - Wy = XB(Z,) +u, (9.68) 
且 像 前 面 讨 论 的 那样 将 Y, - W' y 作为 新 的 因 变 量 来 估计 B( Z.) , 即 
BCZ) = [ E XX Kaal ` > GUY; - W;y]K,,,, 


= ñ,(Z,) - É. (Z,)'y (9.69) 
其 中 
B, (Z.) = [ > LE Eal -1 2. X YK, sja 


B. (Z,) = [ eH XX, Kyn] j š; XW Ks 
7 j 
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用 式 (9. 69) 中 给 出 的 估计 量 B(z,) 来 替代 式 (9. 68) 中 的 B(z;) ,我 们 得 到 
Y, - XB,(Z,) = (W; - Xi. (Z:)')y + error (9.70) 
我 们 现在 可 以 通过 普通 最 小 二 乘 方法 来 估计 y, 通 过 Y, - X B, (Z) 对 
(W) -成 B.(Z,) 7) 进行 回归 。 令 了 表示 得 到 的 y 的 ( 半 参 数 ) 估计 量 , Fan 和 
Huang(2005 ) 证 明 
Jal? - y) > N(0,V) 依 分 布 收敛 (9.71) 
Hp V =A'BA', 3p A =E], B =EL (X, Z W) gt ] ,t= W, - 
E... (W,) JEP En (WEH W, 在 平滑 系数 函数 空间 上 的 投射 , 即 En ( W,) = 
XIB. (Z:) ,而 B.(*) =inf,.,E|[ W, - X(8(Z,)] '[W, -X;B(Z:)]} o 上 述 方法 被 
称 为 “前面 似 然 ”( profile likelihood) 法 。 习 题 9. 3 给 出 了 B。(2,) 的 一 个 一 致 估 
计量 ,对 读者 来 说 应 该 比较 容易 构造 一 个 了 的 一 致 估计 量 , 这 可 以 通过 以 样本 
均值 n” > (C) 替代 总 体 均 值 E(: ) 来 实现 。 


当 误差 项 是 条 件 同 方差 时 , 即 oz = E(w IX, Z, W) =E(w),V 简化 为 
Y=24-' ,这 与 y 的 (正则 ) 估 计量 的 渐 近 方差 下 界 相同 。 于 是 , 当 误 差 项 是 条 
件 同方 差 时 ,》 是 y 的 一 个 半 参 数 有 效 估 计量 。 


9.3.5 定理 9.3 的 证 明 
证 明 : 
B(z)= [ Y XXK] > xx, 
= [X XX K] 5 X, [X/0(Z,) + u]K, 
= [5 XX/K,.] ` 2 x,[X B (a) +X/(0(Z,) - B(z)) + u,]K,,, 
=B(z) +[ Y XX/K..] y X,[X; (8(Z,) - B(z)) + ulK,. 


= B(z) + [D,(z)] |A,.(z) + A,,(z) | 
其 中 
D (z) = n` > XX, K,.,., 


A,,(z) = n` > X,X; (B( Z) - B(z) )K,.... 


A,. (z) = j pi XuK,,, 
7 


第 9 章 可 加 和 平滑 ( 变 ) 系数 半 参 数 模型 


X š š& 8 w 题 8 * š 


下 述 结论 (i) 一 (这) 可 由 定理 9.3 推出 。 


(i) D,(z) = n'y XXI K, , >M, 
j 


(ü) A,,(z) = M, > hsB,(z) + o,( 5` hi) 
(Hi) „/ah, h A, (z) = N(0,V,) 
我 们 接 下 来 证 明 这 些 结果 。 Ka B. = hi h. .H.' = (hh ) h? = 311 
> hi, 我 们 有 
(i) E(D,(z)) = H/'E[X,X(K, ,] 
= H;' [za K( (a, — z)/h)f( x, zi ) dx, dz, 
一 [sa KC) (zl, + hv) dvdx, 
= [fafa ,2) dw || [Ko)d + O(h?) ] 
= 大 (2)[ [xs [l z, = z)dx,|[!1 + O(h°)] 
= f.(z)E[X,X | Z, = z] +o(1) = M, + o(1) 
类 似 地 ,我 们 可 以 证 明 var( D, (z) ) =0( (nh,…h,)”…) =o(1)。 于 是 ,我 们 证 明了 
D,(z) = M, +o,(1) (9.72) 
(ü) E[A,.(z)] = E[X,X, (8(Z,) - B(z))K,,, ,] 
= E|E[X X, | Z,](8(Z,) - B(z))K,.,,| 


= [EX | z,]/(z,) (8(z,) -B(z) )K , ,dz, 
= [me + hv) (B(z + hv) - B(z))K(v)dv 
= k, Ý h; [ M,(z)8,(z) + (1/2)M(z)B„(z)] + O( Sa?) 


= kM(z) > h B (z) + 0( 办 h?) 
其 中 B,(z) 按 定理 9.3 中 的 定义 。 类 似 地 ,可 以 证 明 


var(À,,(z)) = O( S (akak y") 
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于 是 有 
(A.(z) - M, J BB,(2)) = 0, (XK + (nh h)72) (9.73) 
(iii) Vnh,…h,A,,(z) 均 值 为 零 且 其 方差 为 
nH n° z E[ XX, ui Khaa] 
m H, [f(a ,2 ) 0: (x ,2 )aaz Ki n da dz, 
= [frix atl af rsa) dr | [K Co) dv) + of A 


K'f.(z)E[X,X o} (X,,Z.) | Z, = z] +o(1) = V, +o(1) 
Jü < = [K (v)dv, H, = hh, o 


可 以 直接 验证 Liapunov 中 心 极 限定 理 成 立 的 条 件 满足 。 于 是 ， 


JHA, (2) Š N(0,V,) (9.74) 
综合 式 (9.73) , 式 (9.72) 与 式 (9.74) 的 结果 ,我 们 证 明了 


VAHIG) -B(z) - X 2B,(z)] 


= [D,(z)] VnH,{A,.(z) - M, Y BPB, (2) + A, (z) ] 


= [M, +0,(1)]™ | /nH A,,(z) +o,(1) | 
£, M-'N(0,V) = N(0,M-'V.M-') 


9.4 >J 题 


习题 9.1 令 &(z) 如 式 (9.25) 中 所 定义 ,假定 h, =… =h, ,证明 
4 d q 
Vnh| (z) - g(z) -Spy z.) | Mo, >w(z)] 


提示 :由 ti -co =0, (n7?) =o, ((nh) `), a LA co 替代 6 而 不 影响 
&(z) 的 渐 近 分 布 。 另 外 ,用 到 了 当 as 时 ,85.(z ) 与 和 (z) 渐 近 相 互 独立 的 
事实 。 
gs. 2 WEH À, =M VM ' 是 定理 9.3 中 定义 的 02. 的 一 致 估计 量 , 其 
m 2 XX, Kiiu ,有 
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V, = (h h Zn) P XX; t; Kr, 
i=l 


à, = Y, - X'B(Z.) 
习题 9.3 构造 式 (9.71) 中 所 定义 的 渐 近 方差 了 的 一 个 一 致 估计 量 。 
提示 :不 需要 对 结果 进行 证 明 。 构 造 4 和 B 的 一 致 估计 量 ,分 别 记 为 4 与 
B, 这 时 有 VV=4-'B4-'。 注 意 B,(z,) 可 以 通过 以 下 半 参 数 变 系数 模型 来 一 至 
估计 
W, = X,B.(Z,) + error 
于 是 B.(2)[ ` XX K,...] > XWK ay 。 


习题 9.4 ”证明 式 (9. 65 ) 的 第 一 部 分 , 即 证 明 对 于 j=0,1,2, 有 
E[S, ,(z)] — f(z)()(z)u, 
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样本 选择 问题 会 经 常 出 现在 应 用 研究 过 程 中 。 例 如 ， 
在 医药 领域 ,那些 选择 参加 临床 试验 的 人 可 能 比 从 一 般 总 
体 中 选取 的 人 更 有 可 能 (或 更 不 可 能 ) 对 一 个 治疗 产生 反 
应 ,因为 有 过 去 治疗 的 原因 。 在 社会 科学 中 ,类似 的 情况 
也 有 发 生 ,例如 ,与 随机 选择 的 个 体 相 比 ,选择 参加 职业 培 
训 项 目的 那些 人 更 有 可 能 (或 更 不 可 能 ) 从 项 目 中 受益 。 
在 每 一 种 情形 中 ,人 们 可 能 会 担心 那些 “选择 进入 "一 个 
项 目的 人 和 从 一 般 总 体 中 随机 选取 的 人 相 比 ,治疗 ( 训 
练 ) 的 影响 会 有 所 不 同 。 因 此 使 用 非 代表 性 样本 进行 分 析 
会 使 测量 的 处 理 效果 变 得 混 消 。 或 者 研究 者 可 能 对 社会 
经 济 特征 影响 所 关注 的 某 个 结果 的 程度 感 兴趣 ,再 次 担心 
基于 子 样本 的 这 些 特征 的 影响 是 否 对 一 般 总 体 成 立 。 

处 理 样 本 选择 问题 的 具有 开拓 性 的 参数 方法 可 参 
W, Heckman (1976 ,1979 ) ,他 提出 了 一 个 被 广泛 运用 的 
方法 ,其 中 描述 了 结果 的 过 程 且 被 实施 ,在 第 二 阶段 使 
用 来 自 于 此 的 信息 得 到 相关 参数 的 一 致 估计 。 有 很 多 
处 理 样本 选择 的 精巧 方法 被 提 了 出 来 ,本 章 我 们 考虑 一 
些 用 于 处 理 这 种 问题 的 半 参 数 和 非 参 数 方法 。 


10.1 半 参 数 类 型 2 Tobit 模型 


考虑 下 列 潜 变量 方程 : 
Y; = XB +u (10.1) 
Y; = X,, P> + ui (10.2) 
其 中 四 和 到 ;是 (不 可 观测 ) 潜 变量 。 可 观测 的 因 变 量 
为 了 ,和 YY, ,定义 为 
Y =I; >20) (10.3) 
sG, = 1) (10.4) 
其 中 1(4) 表 示 事 件 4 的 示 性 函数 。 我 们 只 观测 到 Y? 的 
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符号 ,只 有 在 Y, =1( Y; >0) 时 可 以 观测 到 V. Im (X, X, ) 是 总 可 以 观测 到 的 。 
式 (10.1) 至 式 (10.4) 在 计量 经 济 学 文献 中 称 为 “类 型 2”(Type-2 ) Tobit 模型 。 
这 种 模型 的 一 个 典型 应 用 出 现在 劳动 力 供给 决策 模型 中 ,我们 将 以 例子 形式 简 
单 介 绍 。 在 劳动 力 供给 模型 中 , 若 Y. =1, 这 个 个 体 进入 劳动 力 队伍 ,可 以 是 
最 优 劳 动 时 间 。 若 Y; <0 ,个 体 将 继续 保持 失业 。 然 而 ,即使 个 体 参 与 劳动 我 
们 也 观测 不 到 部, 的 确切 值 。 交 ,为 个 体 的 (对 数 ) 工资 ,只 有 当 个 体 参 与 工作 
(Yi;=1) 时 才 可 观测 到 。 协 变量 (X,,,X,) 包 含 参加 工作 的 个 体 的 可 观测 特征 。 
估计 式 (10.2) 是 很 有 趣 的 , 记 住 只 有 当 Y, =1 时 ,Y, 才 可 观测 。 于 是 Y, 
F Yul MX 的 条 件 期 望 为 
E(Y, |X; Y =1) =X 8, +E(u,lX,,Y,=1) (10.5) 
联 立 式 (10.2) ,有 
Y, =X; B, +E(u, |X,,Y,, =1) + ee, (10.6) 
其 中 e, = Y, - E (Y,|X,,Y,=1), Ff E: E (z, |X,,Y,, =1) = 0, I jk, # 
BE(uxi| 和 ,=1) 能 够 被 一 致 地 估计 , 则 8 可 以 从 式 (10.6) 来 估计 。 在 参数 框 
架 下 ,通常 假定 (w;,u) 服 从 联合 正 态 分 布 N(0,3) ,其 中 
y _ 7 s02 
Tans On 
然后 可 以 证 明 ( 见 习题 10.1) 
E( uy |X; Y=1)=on cub(XuB/or)B (XB) (10.7) 
其 中 $8(…) 和 BB(，) 分 别 是 标准 正 态 变量 的 概率 密度 函数 和 累积 分 布 函数 
(Amemiya (1985 ,p.367))。 将 式 (10.7) 代 入 式 (10.6) 中 得 到 的 方程 可 以 用 来 
估计 B, ,其 中 可 以 使 用 Heckman(1974,1979) 给 出 的 二 阶段 程序 ,也 可 以 使 用 
最 大 似 然 方法 。 两 种 方法 的 详细 比较 见 Pagan 和 Ullah (1999 ,p. 303)。 


10.2 半 参 数 类 型 2 Tobit 模型 的 估计 


不 对 ui 与 w; 的 联合 分 布施 加 任何 参数 分 布 假定 ,假定 X; Ah F (usta), 

可 以 得 到 如 下 结果 : 
E(u,|X,,Y, =1) = E(u |X,,u,, > -XB) =g( X, B.) (10.8) 
其 中 g(z) =E(u,|u,> -z) =1- F, (一 z),F, | 是 给 定 wi 时 uw 的 条 件 累 
积分 布 函 数 。 因 此 zg( - ) 的 函数 形式 是 未 知 的 。 将 式 (10. 8) 代 入 式 (10.6) 

可 得 

Y, = X; B, +g( XI, B.) + u;, (10.9) 
式 (10.9) 是 一 个 部 分 线性 单一 指标 模型 。Powell(1987) 提出 了 一 个 两 步 
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估计 过 程 来 估计 式 (10. 9)。 首 先 用 Powell ( 1984) 的 CLAD 估计 量 来 估计 B, 
见 11.2 节 , 记 为 B; 然 后 根据 第 7 章 中 介绍 的 Robinson (1998 ) 的 方法 来 估计 


B, ,不 过 现在 X',B 是 一 个 生成 的 回归 元 ,因此 , 渐 近 方差 与 第 7 章 中 给 出 的 结果 
不 同 。 式 (10.9) 是 Ichimura 和 Lee(1991) 中 半 参 数 多 指标 模型 的 一 个 特例 ,Ai 
(1997) 给 出 的 一 般 半 参数 模型 也 包括 了 式 (10.9) 。 然 而 ,应 用 此 方法 时 需要 一 
定 的 识别 条 件 。 像 第 7 章 中 讨论 的 部 分 线性 模型 那样 ,我 们 知道 在 式 (10.9) 中 
截 距 项 是 不 可 识别 的 ,于 是 潜在 的 截 距 项 要 合并 到 g(* ) 中 。 另 外 ,为 了 识别 
Bi ,这 里 还 需要 第 8 章 中 讨论 的 单一 指标 模型 的 识别 条 件 。 

今 09=(B;,B;)',Ichimura 和 Lee(1991) 提出 通过 最 小 化 以 下 目标 函数 来 估 
计 6 

QO) =— X> 1(X,e DUY -Xab -BX BT 


其 中 ， 
> LY, - X p,1K,[ ( X,, - X,) BA 


> K.[ (X,, - X.) Bi/h] 
这 是 E[ Y,, - X; B, |Xi,B,] 的 一 个 核 估计 量 ,其 中 KK,(v) =h 'K(v/h) , Y — 4" 
第 8 章 中 讨论 过 的 修剪 集 。 令 6 为 得 到 的 9 的 估计 量 ,在 类 似 于 第 8 章 给 出 的 正 
则 条 件 下 ,Ichimura 和 Lee 推导 出 了 如 下 结果 ; 
Vn(0-0) SN(0,4-'5A-') (10. 10) 

其 中 A = E[1(XeXNA(X)A(X)'], X = E (uxB,B,), B=1(XeX)- 
E[1(X,e X)|X, B,],A(X,) = X,,[ X, -E( X, | XB)]’ +X, [Xu -E( Xu | Xr, B,)] 
g( Xi, B.) ç Ichimura 和 Lee (1991) 也 给 出 了 4 和 区 的 一 致 估计 量 。 
10.2.1 Gallant 和 Nychka 的 估计 量 

Gallant 和 Nychka (1987) 建议 用 级 数 展开 来 通 近 联合 密度 f(u ,u,) ,其 中 


(xu ,za) 是 式 (10. 1) 和 式 (10.2) 所 定义 的 误差 项 。 他 们 提出 用 下 式 来 逼近 
f iE i ): 


n K K 
f lgt) = expl -ui/(201) -ui/(20:)] [ > yauuy,] (10.11) 
fz fab 


其 思路 是 使 用 一 个 联合 正 态 表达 式 作 为 基准 分 布 ,伴随 着 一 个 考虑 到 累积 分 布 
函数 的 一 般 形式 的 罕 级 数 展开 。 应 用 以 上 联合 密度 公式 可 以 计算 出 f( uy |u,) 
且 构 造 出 一 个 对 数 似 然 函数 ,并 可 通过 最 大 化 对 数 似 然 函 数 来 得 到 B, 和 其 他 
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参数 的 估计 。Gallant 和 Nychka 在 K— = 和 n— e 时 有 K/n—0 的 条 件 下 证 明了 
他 们 所 提出 的 估计 量 的 一 致 性 。Coppejans 和 Gallant (2002) 证 明了 在 估计 
所 wx) 时 可 以 使 用 数据 驱动 方法 来 选择 寡 级 数 展开 项 。 

Newey( 1999) 提出 了 一 个 替代 的 两 阶段 级 数 估 计 方 法 ,可 以 先 对 8, 进行 
有 效 估计 ,再 通过 解 一 个 有 效 得 分 方程 来 估计 Bao Pagan 和 Ullah ( 1999, 
pp. 311 一 314) 提供 了 一 个 详细 的 关于 Newey 的 级 数 估 计 方 法 及 其 渐 近 分 布 的 
讨论 。 我 们 将 在 第 15 章 讨 论 一 般 级 数 方法 。 


10.2.2 选择 模型 中 截 距 项 的 估计 


如 前 面 所 讨论 的 ,基于 式 (10.9) 的 估计 方法 由 于 不 能 将 截 距 从 z( :- ) 中 分 
离 出 来 , 故 不 能 识别 截 距 项 。 如 果 只 关注 X, 对 7; 的 局 部 效应 ,那么 就 可 以 不 用 
考虑 截 距 项 。 然 而 ,在 其 他 情形 下 , 截 距 项 可 能 也 是 非常 重要 的 ;决定 参加 工会 
的 工人 与 未 参加 工会 的 工人 之 间 的 "工资 缺口 "时 ,分 解 不 同 社会 经 济 团体 的 工 


资 差异 时 ,等 等 。 邻 j 表示 截 距 项 ,我 们 记 X, = (1, X23)',B, = (1,6')'。 Heck- 
man(1990) 建议 对 那些 E(u, |Y, =1) =g(Xi,B) 为 零 的 观测 值 进行 平均 来 估 
计 截 距 项 jy。 这 样 可 以 得 到 


2 CK, ú X; VOX B, > y,) 
p = — p 
> YAX B, > y.) 
其 中 y, 是 满足 当 n— e 时 y,— e 的 窗 宽 。 
由 于 示 性 函数 1(， ) 是 不 可 微 的 ,如 上 定义 的 放 的 渐 近 分 布 就 很 难 验证 。 


Andrews 和 Schafgans( 1998) 建议 用 一 平滑 非 减 的 累积 分 布 函 数 来 代替 性 中 的 
示 性 函数 ,其 中 该 累积 分 布 函数 满足 对 z<0 有 s(z) =0, X} z>b,0 <b <% $ 
s(z) =1, 且 s(* ) 具 有 三 阶 有 界 导数 。Andrews 和 Schafgans 提出 用 下 式 来 估 
iFu: 


I >` Y, - X; È Yu SCX B, > y.) 
= ——— 
s. YS X,, Ê, > Ya?) 
Andrews 和 Schafgans( 1998) 证 明了 一 致 性 且 推 导出 了 kk 的 渐 近 分 布 。 一 
的 收敛 速率 (向 零 ) 依 赖 于 v; =XX';B, 的 分 布 。 在 某 些 情形 下 ,收敛 速率 可 以 非 
常 接 近 n’, 
其 他 用 来 估计 半 参 数 类 型 2 Tobit 模型 的 方法 包括 Newey (1991a,1999 ) 基 
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于 级 数 的 估计 量 ,Cosslett (1983 ) 的 逼近 似 然 估 计量 ,以 及 Powell ( 1987 ) 3£ F 4% 
的 部 分 线性 单一 指标 模型 估计 量 。 


10.3 半 参 数 类 型 3 Tobit 模型 


本 节 我 们 研究 下 面 10.3.1 节 中 定义 的 类 型 3 Tobit 模型 的 半 参 数 估 计 。 
Vella( 1992) 提出 了 一 个 使 用 类 型 3 Tobit 残 差 作为 一 个 生成 回归 元 的 样本 选择 
偏差 检验 。 使 用 类 似 的 思路 ,Wooldridge(1994) 提出 了 一 个 比 Heckman(1979 ) 
的 方法 更 易于 使 用 且 更 稳健 的 两 阶段 估计 量 。Li 和 Wooldrige (2002) 考虑 到 
误差 分 布 的 非 正 态 性 ,对 Wooldridge 的 方法 进行 了 一 般 化 ,得 到 了 一 个 半 参 数 
部 分 线性 模型 ,其 中 生成 的 回归 元 通过 非 参数 形式 进入 模型 。Chen (1997) ， 
Honoré, Kyriazidou 和 Udry (1997) ,以 及 Lee (1994) 都 提出 了 不 需要 误差 分 布 
的 不 同 的 半 参 数 二 阶段 方法 。 


10.3.1 计量 经 济 学 预备 


考虑 通过 潜 变量 定义 的 类 型 3 Tobit 模型 
Y' =X IB, +u, (10.12) 
Y; = X;B, + u, (10.13) 
其 中 第 一 个 方程 是 选择 方程 ,第 二 个 方程 是 主要 关注 方程 。 只 有 当选 择 变量 
Y” 为 正 时 因 变 量 Y; 才 可 被 观测 到 。 因 此 我 们 观察 y. 与 Y, 满足 
Y, = max{ Y; ,0} (10. 14) 
Y, = Y; 1( Y, >0) (10.15) 
其 中 与 Y, 是 观测 到 的 因 变 量 ,X, 与 X, 分 别 是 具有 维 数 p, A p, 的 外 生变 量 
向 量 ,而 BB, 与 B, 为 相应 的 未 知 参数 列 向 量 。 例 如 ,在 劳动 力 市 场 应 用 中 ,Y, 会 
是 一 个 个 体 的 劳动 时 间 , 而 了 会 是 (对 数 ) 小 时 工资 率 。 同 10. 1 节 中 讨论 的 类 
型 2 Tobit 模型 相 比 , 这 里 当 劳动 时 间 为 正 时 可 以 观察 到 它 ,而 在 类 型 2 Tobit 模 
型 中 只 知道 劳动 时 间 为 正 或 者 为 零 , 即 不 能 观测 到 具体 准确 的 劳动 时 间 。 
在 式 (10. 14) 与 式 (10. 15) 描述 的 选择 规则 下 ,我 们 有 
E( Y; |X,X,,Y" >0) =X, B, +E(u,|u, > -XB,X,X,) (10.16) 
于 是 , 若 式 (10. 16) 右 端 第 二 项 非 零 时 ,用 最 小 二 乘 方法 关于 X, 来 回归 Y, 
可 得 到 8, 的 一 个 非 一 致 的 估计 量 。 在 (w,w,) 服 从 联合 正 态 分 布 的 假定 下 ， 
Heckman(1976 ,1979 ) 提出 了 一 个 简单 的 二 阶段 方法 来 估计 类 型 2 或 者 类 型 
3 Tobit 模型 。Heckman 的 提议 为 ,通过 加 入 一 个 选择 偏差 项 的 估计 ,在 式 
(10. 15) 中 恢复 零 条 件 均值 ,E(u,|u, > - X, BT ,ZE)。 在 正 态 情形 下 ,此 项 
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与 逆 Mills 比 成 比例 且 只 依赖 于 式 (10. 12) 的 未 知 参数 ,未 知 参 数 可 以 通过 
Probit 或 Tobit 最 大 似 然 方法 来 估计 。 

Vella (1992 ,1993 ) 和 Wooldrige (1994 ) 提出 不 同 的 二 阶段 估计 模型 可 能 具 
有 更 好 的 有 限 样 本 性 质 。 在 (XX ,X,) 独 立 于 (wi,w) 的 假定 下 ,他 们 注意 到 
E(u, |x,u „Y, >0) =E(u, |u, „Y, >0) 。 如 果 进 一 步 假 定 E(u, |u,) =y, HA 
选择 偏差 修正 项 为 y,u,。 可 以 用 总 =Y, -X; B, Kitt u, ,其 中 38 B, 的 Tobit 
估计 量 。 于 是 ,可 以 使 用 u, 而 非 Heckman (1979) 的 逆 Mills HE ,来 作为 条 件 期 
望 中 附加 的 变量 。 这 样 做 的 优点 是 即便 X, 与 逆 Mills 比 接近 共 线 时 ,ww Mke X, 
具有 更 多 变化 ,因此 使 得 Vella-Wooldridge 估计 量 更 稳定 且 更 有 效 ; 更 多 细节 见 
Wooldridge( 2002 ,p. 573 ) 。 

并 没有 必要 假定 (uw, ,w,) 的 联合 分 布 是 已 知 的 ,或 者 假定 E(u,|u,) =Yiu。 
K (u ,wu,) 的 联合 分 布 未 知 时 ,有 E(u,|u) =g(u) ,其 中 &(， ) 是 一 未 知 函 数 。 
此 时 容易 证 明 E( Yy | X, uu) = X; B, +g( ui)。 于 是 我 们 有 

Yy; = X; P, + Bg( Ui) tu, (10. 17) 

其 中 wv, 满足 E(wv, |u, Yu >0) =0。 

依据 Robinson( 1988) 并 使 用 那些 7, >0 的 观测 值 ,从 式 (10. 17) 我 们 得 到 


Y, — E( Y; | u) = [ X,, - E(X, |u,)]' B, +v; (10.18) 
或 者 是 一 个 密度 加 权 的 相应 结果 
[ Y,, - E( Y,, | ui) Jf: = f,[ Xz - E(X, | uy) ] 'B. + fs, (10.19) 


HP f, =f( u) iÈ u, 的 概率 密度 函数 。 
Li 和 Wooldridge( 2002) 给 出 了 一 个 估计 B, 的 多 步骤 方法 ,过程 如 下 : 


(i) Hà, =Y, -X B 来 估计 u IEP, 是 p. 的 第 一 阶段 估计 量 。 

(ü) 使 用 {六 ,XX ü Y 38432 E( Y, |u) A E( X. |u,) fJ 4E2 S 245 iF, 
WY, =E( Y,, | ùu) 和 XX, = E( Xi | mi) ° 

(ü) 基于 式 (10. 18) 应 用 最 小 二 乘 方法 来 估计 B,( 如 Robinson (1988) ) , 即 ， 


A, =[ À, (X, -X,)(X,-X] Y (X, - Xy) (Yu - Yy) 


我 们 假定 在 第 一 步 , 存 在 一 个 B, 的 Vn 一 致 且 渐 近 正 态 分 布 估计 量 , 记 为 B, ， 
由 如 下 等 式 来 刻画 : 


Vp -69 = Yr. +0,(1) — N(0,0,) RAAM (10. 20) 
Hp 0,=E[rrí] i Ë n BA FE 0, =n > e E 0, 的 一 个 一 
致 估计 量 。 
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例如 ,Powell (1984) 的 CLAD 估计 量 满足 式 (10. 20) 并 由 下 式 定 义 ， 


~ $ 1 3 , 
B, = arg min— 3 | Y, - max{0, X; 6, | (10. 21) 


对 这 种 情形 ,r( 在 式 (10.20) 中 定义 ) 和 82 的 特定 定义 在 Powell (1984) 中 给 出 。 

Li 和 Wooldridge (2002) 证 明了 他 们 给 出 的 8, 的 估计 量 的 Yn 正 态 性 如 下 : 

Vn( 有 -PB,) 一 N(0,3) 依 分 布 收敛 

其 中 3=@ [0 + VD ,® = Elv vf’i],v, = X, -éé = E(X,|u), 
w=Elvf (wi)e (ua)[Xi - E(X,|u,)]] Q = Elo vo Xz, wi)ft] ui = 
Y, -Xubi g” (u) =dg(u,)/du, ,Q, 在 式 (10.20) 中 给 出 。 

Li 和 Wooldridge (2002) 也 给 出 了 渐 近 方差 的 一 个 一 致 估计 量 ,并 进 一 
步 导 出 了 此 模型 的 半 参 数 有 效 性 边界 。 上 述 多 步 又 方法 在 3 与 半 参 数 下 界 相 
差 一 个 正定 矩阵 的 意义 下 不 是 半 参 数 有 效 的 。 有 效 估 计 通 常 可 以 通过 一 个 一 
步 过 程 来 得 到 ,如 Ai(1997) 中 8, 与 B, 是 同步 被 估计 的 。 

在 上 面 列 出 的 方法 中 ,生成 的 回归 元 是 从 参数 模型 得 到 的 。Ahn 和 Powell 
(1993) 考虑 了 一 个 更 一 般 的 情形 ,其 中 生成 的 回归 元 是 从 非 参数 回归 模型 得 
到 的 。 他 们 的 方法 也 可 以 用 来 在 半 参 数 类 型 3 Tobit 模型 估计 B0 


10.3.2 不 同 的 估计 方法 


许多 作者 也 提出 了 在 不 需要 知道 (u, ,wu,) 的 联合 分 布 的 相关 信息 下 类 型 
3 Tobit 模型 的 半 参 数 估 计 ; 见 Chen (1997) , Honoré 等 . (1997) ,Lee(1994) , 以 
及 其 他 。 下 面 ,我 们 简要 讨论 几 个 这 种 估计 量 。 

Chen(1997 ) 观察 到 在 (uw ,wu,) 独 立 于 (外, ,X,) 的 条 件 下 ， 

E(Y,|X,,X,,u >0,XB, >0,Y, >0) = 
E(Y, |u, >0,x) = X;8, + wo (10.22) 

其 中 a, 是 一 个 常数 。 然 而 ,ao 并 不 是 原始 模型 的 截 距 ,这 是 由 于 没有 进一步 的 
假定 , 截 距 项 是 不 可 识别 的 。 基 于 式 (10. 22 ) ,Chen 建议 用 一 个 应 用 于 修 前 过 
的 子 样 本 的 简单 最 小 二 乘 过 程 来 估计 B, 


“ . š Ë P 
B, chen = arg Een pa 2. ly,.-riibi>o xip >o] (Yz -Xu B, -a)” (10. 23) 
, et 


其 中 B, 是 第 一 步 中 p, 的 Yn 一 致 估计 量 , 即 由 Honoré 和 Powell(1994) 给 出 的 人 
计量 ,或 Powell(1984) 的 CLAD 估计 量 。 如 Chen 所 讨论 的 , 式 (10. 23) 给 出 的 
估计 量 存 在 的 一 个 问题 是 , 它 可 能 剔除 过 多 的 观察 测 值 而 导出 一 个 无 效 估 计 。 
Chen 因此 提出 一 个 替代 的 估计 量 , 其 在 有 限 样本 应 用 中 只 剔除 很 少 的 数据 点 
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(FEIL Chen(1997) 中 的 式 (11) ) 。 

Honoré 等 (1997) 考虑 了 一 个 不 同 的 方法 。 为 了 放松 Heckman (1979) 的 
正 态 假定 ,Honore 等 考虑 了 潜在 误差 项 条 件 于 回归 元 是 对 称 分 布 的 情形 ,其 中 
允许 存在 任意 的 异 方差 。 在 此 情形 下 ,样本 选择 的 影响 为 ,在 样本 选择 的 条 件 
下 ,误差 项 不 再 是 对 称 分 布 的 。Honoré 等 注意 到 如 果 用 满足 -XB <u < XIB, 
(等 价 于 0<Y, <2XiB, ) 的 观测 值 来 估计 B, ,那么 u, 就 是 关于 零 对 称 分 布 的 。 
于 是 下 面 最 小 绝对 离 差 估计 量 可 以 一 致 地 估计 B; : 


š . 1 < ' 
Bancu = arg min — >, Ljocruezriô | Ya -Xa B | (10. 24) 


其 中 B, 是 p, 第 一 阶段 的 Vn 一 致 估计 量 , 如 Powell (1984) 的 CLAD 估计 量 。 


Honoré 等 也 证 明了 他 们 提出 的 估计 量 B, gxu 的 Vn 正 态 性 。 
在 误差 项 和 回归 元 相互 独立 的 假定 下 ,Lee(1994, 式 (2.12) ) 证 明了 
Y.-BE(Y |u; > -Xubi ,XIB >X; B.) 
= [Xz - E(X; | X (8, > X,,B,)]8, + us 
(10.25) 
其 中 满足 E(u,l|u, > <P B>X.B,) =0。Lee 建议 首先 用 核 估 计量 
替换 式 (10. 25) 中 的 条 件 期 望 (同样 ,B, 需要 用 一 个 第 一 步 估计 量 来 替换 ) ,再 
应 用 最 小 二 乘 过 程 来 估计 B, (REXA Ê i)o Lee 证 明了 B, .的 渐 近 正 
态 性 。 

Chen(1997) 和 Honoré 等 (1997) 的 方法 均 不 需要 非 参 数 技 术 , 而 Li 和 
Wooldridge(2002) 以 及 Lee(1994) 均 使 用 了 非 参 数 核 方法 。 尽 管 非 参数 核 方法 
一 般 都 是 对 平滑 参数 的 选择 敏感 的 ,但 Lee,Min,Sheu 和 Wang ( 2003 ) 中 的 
Monte Carlo 模拟 意味 着 Lee 与 Li 和 Wooldridge 的 估计 量 对 于 平滑 参数 的 选择 
是 相当 不 敏感 的 。 这 是 因为 B, 的 半 参 数 估 计量 依赖 于 非 参 数 估 计量 的 平均 
值 ,而 一 个 平均 的 非 参 数 估计 量 与 一 个 逐 点 的 非 参 数 估计 量 相 比 ,对 于 不 同 值 
的 平滑 参数 是 更 不 敏感 的 。 

在 类 型 2 Tobit 模型 中 也 可 以 应 用 Ichimura( 1993) 基于 单一 指标 的 半 参 数 
非 线性 最 小 二 乘 方法 来 估计 B, ,如 二 元 劳动 力 参与 变量 。 只 使 用 满足 Y, >0 的 
数据 ,相应 的 半 参 数 工资 方程 是 一 个 部 分 线性 单一 指标 模型 ( 见 Ichimura 和 Lee 
(1991) ) ,具有 以 下 形式 ; 

Y, = X; B, +0( XI, B, ) + mx, (10.26) 
其 中 0 (Xubi) = E (u|u > - X, B.) RE RA ñ Pš # JÉ zÜ , nm, 满足 条 件 
E(m,|X,) =0, Ichimura 和 Lee 提出 了 一 个 半 参 数 非 线性 最 小 二 乘 方法 来 估计 
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I (10. 26) , 且 他 们 证 明了 他 们 所 提出 的 统计 量 的 渐 近 分 布 。 

我 们 推荐 有 兴趣 的 读者 参考 Christofides, Li, Liu 和 Min (2003 ) ,其 中 考虑 
了 在 应 用 方面 五 个 半 参 数 估计 量 的 相对 表现 。 这 些 估计 量 是 (i)Chen(1997 ) 的 
半 参 数 估计 量 ,(ii) Honoré 等 (1997) 的 半 参 数 估计 量 , (证 ) Lee(1994) 的 半 参 
数 估 计量 , (iv) Li 和 Wooldridge (2002 ) 的 半 参 数 估 计量 , (v) 基于 Ichimura 
(1993) 以 及 Ichimura 和 Lee(1991 ) 的 半 参 数 类 型 2 Tobit 估计 量 。 注 意 Honoré 
等 要 求 u, 具有 (条 件 ) 对称 分 布 ,但 是 不 要 求 (wu,u,) 独 立 于 (站 ,X,) ;相反 ,其 
余 四 个 估计 量 假定 (uw u) Ah FX, ,X,) 而 不 要 求 u, 是 对 称 分 布 。 对 称 条 件 
既 不 弱 于 也 不 强 于 独立 条 件 。 

对 于 选择 偏 误 的 检验 ,我 们 考虑 检验 无 选择 偏 误 , 或 者 如 Vellla( 1992 ) 和 
Wooldridge ( 1994 ) 所 描述 的 对 参数 选择 偏 误 进 行 检验 ,这 与 在 Li 和 Wooldridge 
(2002) 中 所 介绍 的 一 般 的 半 参 数 选择 偏 误 相 反 。 令 H. 表示 没有 选择 偏 误 的 原 
假定 。 若 H 被 拒绝 ,检验 参数 选择 模型 是 否 适 合 就 非常 必要 , 即 是 否 有 Hi: 
E(u,|u,) =wy 几乎 处 处 满足 。 如 果 误 差 是 正 态 分 布 的 ,那么 有 g(u) =uy, 
且 可 以 通过 检验 是 否 有 Y=0 来 对 无 选择 偏 误 假定 进行 检验 。 然 而 , 当 g(u) > 
uy 时 ,基于 检验 y =0 的 对 无 选择 偏 误 的 参数 检验 会 给 出 误导 的 结果 ,这 是 由 
于 此 时 会 出 现 两 类 错误 :第 一 类 ,HH 为 真 时 , 当 g(u) 关 uiy 时 参数 假定 可 能 会 
拒绝 原 假定 ;第 二 类 , 当 H: 非 真 时 ,参数 假定 就 没有 功效 ,即使 样本 容量 趋 于 无 
穷 大 ,这 是 因为 这 不 再 是 一 个 一 致 检验 ( 见 第 12 章 关 于 一 致 检验 的 定义 )。 

我 们 下 述 的 检验 统计 量 对 (w ,wu,) 的 分 布 假定 是 稳健 的 。 也 就 是 说 ,无 论 
(wi ,uw,) 的 联合 分 布 是 什么 ,如 果 存 在 选择 偏 误 , 检 验 出 选择 偏 误 的 概率 当 样 本 
容量 趋 近 于 无 穷 时 将 收敛 于 1。 不 存在 选择 偏 误 (H) 的 原 假 定 可 以 表示 为 
E(u,|u,) =0。 对 立 假定 (可 ) 可 以 表示 为 E(w,|u)=g(uw) 关 0。 若 H 为 真 ， 
那么 在 下 ,对 可 观测 到 的 y, X: X, 的 普通 最 小 二 乘 回 归 给 出 了 B, 的 一 个 
一 致 估计 量 ( 我 们 记 为 B,,.) ,同时 ,最 小 二 乘 残 差 总 , = Y, - X; Bw 是 ww 的 一 个 
—# h TFBR (ZE H; 下)。 像 Li 和 Wang(1998) 以 及 Zheng(1996) 提 出 的 参数 模 
型 设 定 的 检验 统计 量 那样 (有 关 此 类 检验 更 详细 的 讨论 见 第 12 章 ) ,对 H; 的 一 
个 检验 统计 量 如 下 : 

Í: = y- 5 > 2. ü, ü, K,( ü, - iy) (10. 27) 
其 中 必 表示 可 观测 样本 ( 即 满足 Y, >0 的 观测 值 ) RERA Ei, =Y, - X, Bi o 
我 们 现在 给 出 一 些 正则 条 件 ,在 这 些 条 件 下 可 以 导出 1 人 以 及 下 面 定义 的 另 


一 检验 1 的 渐 近 分 布 。 
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条 件 10.1 (了 了,,X;,uii,w) 是 独立 同 分 布 的 ,分 布 同 于 (YY, ,x,ui ,us)。 x, 
ui ,ws 均 具 有 有 限 的 四 阶 矩 。3g(zw )Xau ,sg(w)vau 对 u, 都 是 连续 的 且 都 
被 一 个 具有 有 限 二 阶 矩 的 函数 ( 记 为 M(w) ) 占 优 。B, -B = 0,(n 2)。 
条 件 10.2 核 函 数 K(，) 是 有 界 、 对 称 、 三 次 可 微 且 具有 有 界 导 函数 的 。 327 


[Kowa =1 , [Koy ae 本 
条 件 10.3 `n — °H ,h—0,n h> 。 
借鉴 第 12 章 中 定理 12.1 的 证 明 ,我 们 可 以 证 明 
命题 10.1 在 条 件 (10. 1) 至 条 件 (10.3) 之 下 ,我 们 有 ( 当 n 一 %m 时 ) 
(i) # H: 为 真 ， a d 
n,h'? To >N(0,1) 
(ü) # H: 为 真 ， 
P[|n are |>Cc] 一 1, 任 意 C>0 
其 中 -#2 > üz úz Ka ü, — ü) o 


J 


如 果 H: 被 拒绝 ,就 需要 估计 一 个 参数 模型 或 半 参 数 选择 模型 。 于 是 ,检验 参 
数 模型 是 否 适合 就 十 分 重要 。 参 数 设 定 正确 的 原 假定 可 以 表示 为 成: 
E(Y,|X,,u,) =X; B, +uyo WILBEK EY, |X,,u,) = X;8, + g(u,) ,其 中 
g(u,) 关 u,y。 因 此 ,检验 是 一 个 线性 回归 模型 还 是 一 个 部 分 线性 回归 模型 是 非常 
必要 的 。Li 和 Wang(1998) 提出 了 当 可 观测 时 的 这 样 一 个 检验 。 在 Li 和 
Wang 给 出 的 检验 中 ,将 w 替换 为 =Y. -XÊ ,可 得 到 一 个 检验 夸 与 硬 的 有 
AFE. Al, =Y, -X; B, -ûuy ,其 中 B, 是 Li 和 Wooldridge(2002) 给 出 的 B, 的 
半 参 数 估 计量 ,y 是 基于 Yy = X; B, + ü, y + error 得 到 的 y 的 普通 最 小 二 乘 估计 
量 。 这 时 ,检验 统计 量 给 出 为 
“mes 52 s. uy UaK, ü, - ü) 


命题 10.2 在 条 件 (10.1) 至 条 件 (10.3) 下 ,我们 有 ( 当 m 一 时 ) 
(i) # H° HA ,n h” DZ, SN(0,1)。 
(ü) # H° 为 真 ,对 任意 的 c>0,P[1nh ?1go,1>c] 一 1, 其 中 go? = 328 


n,(n, TAA, > Ba Hy KiC, -i)o 


命题 10. 2 的 证 明 同 第 12 章 中 定理 12.1 的 证 明 类 似 ,这 里 就 不 作 介绍 。 
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注意 1° 和 71 均 只 涉及 一 维 的 核 估计 ,因此 都 避免 了 维 数 诅咒 。 当 处 理 大 的 


数据 集 时 ,检验 统计 量 1° 和 7 提供 了 检测 可 能 的 样本 选择 偏 误 及 检测 是 否 需 要 
用 半 参 数 选 择 模型 来 修正 这 个 偏 误 的 非常 有 力 的 途径 。 

应 当 提 到 的 是 ,上 述 检验 是 被 设计 用 来 在 模型 是 线性 上 且 可 加 的 良好 假定 
下 ,检验 不 存在 选择 偏 误 或 参数 选择 偏 误 的 。 如 果 模 型 为 线性 且 可 加 的 假定 不 


再 成 立 , 1* 和 7 检验 可 能 由 于 这 些 假定 被 违背 而 拒绝 原 假定 。 理 想 地 ,应 该 进 
一 步 检 验 是 半 参 数 选择 模型 还 是 一 般 的 非 参 数 模型 , 它 不 依赖 线性 及 可 加 性 。 
然而 ,这 样 一 个 检验 很 可 能 遭受 维 数 诅 咒 。 


10.4 Das,Newey 和 Vella 的 非 参 数 选 择 模型 


Das, Newey 和 Vella(2003) 考虑 了 下 述 非 参 数 样本 选择 问题 。 令 了 为 因 变 

量 ,X 为 右 侧 的 关注 变量 向 量 。 假 定 有 
Y’ =g(X,) +e; 
Y= 

Hp gl ) 的 函数 形式 未 指定 ,se, 为 一 扰动 项 ,d; 为 二 元 选择 指标 。 通 过 允许 
g(“'，) 具 有 未 知 函 数 形式 而 非 X, 的 线性 函数 可 以 将 常用 的 样本 选择 模型 一 般 
fk. # d, 与 e, 是 相关 的 ,为 了 估计 g( ) ,此 时 需要 对 选择 偏 误 进行 修正 。 令 
Z, 为 一 决定 选择 的 变量 向 量 ,定义 p, S E(d;|X,,2,) (倾向 得 分 ) Das 等 做 出 
了 如 下 假定 。 

假定 10.1 

(i) E(e|X,Z,d=1) =m(p)。 

Cii) 对 任意 随机 变量 (X) b(p),P[I(X) +b(p)=0|d=1] =1 意味 着 
1(x) 是 一 个 常数 。 

Das 等 (2003) 证 明了 车 d=1( ao( Z) -n >0) (无 需 指定 al- ) 的 函数 形式 ) 
且 (s,n) 独 立 于 (2Z,X) ,那么 假定 10.1 成立。 假定 10. 1 中 (i) 立 即 意味 着 

E(Y|X,Z,d=1) =g(X) +m(p) (10. 29) 

式 (10.29) 设 定 g(。 ) 为 一 可 加 的 常数 。 在 可 加 回归 模型 中 ,通过 在 一 个 可 
加 回归 模型 中 用 选择 (可 观测 的 ) 的 Y 对 XX 和 p 进行 非 参数 回归 可 以 估计 g(， )。 
因此 ,Das 等 (2003) 提 出 了 一 个 基于 级 数 的 两 步 估计 方法 来 估计 g(. )。 第 一 步 
通过 对 倾向 得 分 p =E(d|2Z,X) 进 行 非 参 数 估计 来 估计 p( 记 为 P) ,第 二 步 则 在 施 
加 了 可 加 约束 后 关于 无 和 P 对 可 观测 的 了 进行 回归 。 之 所 以 使 用 非 参 数 级 数 方法 


(10.28) 
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是 因为 很 容易 施加 可 加 性 约束 (对 级 数 方法 的 详细 讨论 见 第 15 章 )。 同 样 ,也 可 
以 用 核 方法 来 估计 可 加 模型 (10. 29) ,如 边际 积分 法 或 者 反 向 拟 合法 。 
考虑 到 内 生 的 天, 通过 使 用 Newey, Powell 和 Vella ( 1999 ) 给 出 的 方法 ,Das 
等 (2003 ) 进一步 扩展 了 他 们 的 选择 模型 (10. 28), XE, RÈI X= 
(ZX) 和 2Z=(2,2:)。 模 型 给 出 为 
Y; =g(Z,,,X,,) +s, 
X, =T(Z,,,Z;,) + s, (10.30) 
Y, =d,Y; 
此 时 ,假定 10.1 被 修改 如 下 : 
假定 10.2 
(i) E(e|v,Z,d=1) =m(p,v)o 
(ii) 对 任意 的 随机 变量 LX) 和 b(p,v) ,PL[L(X) +b(p,v) =0|d=1] =1 Ë 
味 着 !(x) 是 一 个 常数 。 
在 假定 10.2 下 ,Das 等 (2003 ) 证 明了 
E(Y|X,Z,d=1)=g(X)+m(p,v) (10.31) 
式 (10.31) 给 出 了 估计 g(… ) 的 基础 。 首 先 ,基于 E(d|X,Z)#l E(X, |Z) 
非 参 数 估计 量 来 分 别 估 计 p #8lo( HF p=E(d4|X,Z),e=X,-E(X|Z)), 在 施加 
了 可 加 约束 后 关于 站 和 (p,v) 对 可 观测 的 了 进行 非 参 数 回归 。 然 后 ,由 此 估计 
g(“)( 与 m 一 起 ) ,即使 用 Y、X 以 及 vv 与 p 的 估计 值 来 估计 式 (10. 31 ) 。Das 
等 (2003 ) 证 明了 所 得 到 的 估计 量 的 渐 近 分 布 。 然 后 他 们 应 用 他 们 提出 的 方法 
估计 了 受 教育 程度 对 澳大利亚 年 轻 人 工资 的 影响 。 


10.5 2J 题 


习题 10.1 推导 式 (10.7)。 
习题 10.2 ”推导 式 (10. 17)。 


习题 10.3 ”考虑 式 (10.27) 中 定义 的 1:。 
(i) 证 明 在 H: F, 10, 
(ii) 证 明 aaC >0, IC 是 一 个 正 的 常数 。 


Gii) 直观 讨论 为 什么 H; 为 伪 时 , 7" 被 期 望 具 有 功效 。 
提示 :检验 统计 量 的 功效 定义 为 H, 为 伪 时 该 检验 拒绝 H, 的 概率 。 
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经 济 学 家 收集 的 数据 往往 在 某 些 方面 是 不 完备 的 。 
本 章 我 们 考虑 这 样 一 种 情况 ,其 数据 被 称 为 “截断 的 ” 
(censored) 。 我 们 不 能 观察 到 一 个 因 变量 的 值 高 于 或 低 
于 某 一 特殊 值 时 ,截断 才 会 发 生 , 尽 管 我们 确实 观测 到 
了 相关 的 解释 变量 。 也 就 是 说 , 因 变 量 的 观测 值 在 某 一 
区 域外 被 截断 ,在 此 区 域 的 端点 处 存在 多 个 观测 值 。 在 
这 类 情形 下 ,我 们 知道 取 零 值 因 变量 的 观测 数目 和 这 些 
观测 值 对 应 的 解释 变量 的 取 值 .由 严格 来 讲 , 一 个 样本 
被 截断 是 指 没 有 观测 值 被 系统 地 排除 掉 ,但 是 一 些 信息 
被 隐藏 了 。 想 象 一 个 审查 者 阅读 你 的 邮件 并 用 墨 涂 掉 
其 中 的 一 部 分 一 一 你 仍然 得 到 了 你 的 邮件 ,尽管 它 的 某 
些 部 分 难以 辨认 。 

在 许多 情形 下 都 会 产生 截断 数据 。 一 个 常见 的 截 
断 的 来 源 是 “编码 上 限 ”(top coding)。 例 如 ,在 可 公开 
获得 的 CPS 数据 中 就 存在 这 种 情况 。 对 于 可 公开 获得 
的 数据 ,美国 人 口 普 查 局 当前 使 用 的 方法 是 在 99 999 美 
元 每 年 处 遮 掉 收 入 分 布 的 顶部 。 于 是 ,所 有 超过 这 个 水 
平 的 收入 者 的 收入 在 CPS 公用 数据 库 中 显示 为 99 999 
美元 每 年 ,而 不 管 他 们 实际 收入 为 多 少 。 另 一 个 例子 来 
自 Long(1997 ,p. 189) ,涉及 一 个 模型 ,其 因 变量 是 科学 
家 们 第 一 个 学 术 工 作 的 声望 ,声望 被 划分 在 区 间 
[1.0,5.0] 中 的 一 个 连续 标 度 上 。 然 而 ,对 于 评级 低 于 
1.0 声望 水 平 的 研究 生 项 目 或 者 没有 研究 生 项 目的 系 ， 
工作 的 声望 是 不 可 得 到 的 。 无 论 这 些 实 际 的 声望 是 多 
少 ,它们 都 以 1.0 的 声望 被 记录 。 

我 们 首先 考虑 一 个 常用 的 传统 参数 方法 来 处 理 截 
断 问 题 的 出 现 , 这 为 在 过 去 20 年 间 提出 的 许多 具有 创 





O 断 尾 (truncation) 作 为 男 一 种 情况 ,发 生 在 位 于 某 区 间 外 的 因 变 量 和 


解释 变量 的 观测 值 都 完全 丢失 时 。 
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新 性 的 半 参 数 和 非 参 数 模型 提供 了 背景 。 


11.1 参数 截断 模型 


参数 方法 处 理 截 断 的 出 现 是 通过 一 个 调整 机 制 进行 的 ,该 机 制 能 够 克服 直 
接应 用 最 小 二 乘 方法 带 来 的 偏 误 。 这 通常 都 伴随 着 对 模型 的 残 差 规定 一 个 特 
殊 的 概率 密度 函数 ,这 样 得 到 一 个 修正 项 , 当 它 被 一 致 估计 时 ,能够 得 出 所 关注 
参数 的 一 致 估计 。 我 们 简要 回顾 一 下 这 个 流行 的 方法 ,然后 为 文献 中 出 现 的 许 
多 半 参 数 和 非 参 数 方法 做 好 铺垫 。 

考虑 “ 潜 变 量 模 型 ” 

Y° =XBt+e,, i=l1,.…,n (11.1) 
其 中 XeR"',B 是 一 个 g xl 参数 向 量 ,s; 为 一 均值 为 零 的 扰动 项 。 然 而 ,我 们 
没有 观测 到 Y' ,而 是 观测 到 Y 如 下 : 


Y, Y >0 
=i i=l, „n (11.2) 
0, Y; <0 
这 被 称 为 一 简单 的 “ 左 截断 机 制 "?, 即 
Y, = max{ X 8 + £,,0} (11.3) 


此 模型 易 修 改 为 容许 右 截 断 或 左右 同时 截断 机 制 ,也 可 以 通过 从 Y, A XB 中 减 
去 c 变 为 容许 非 零 截断 点 机 制 。 对 下 述 讨论 ,我 们 假定 使 用 的 是 左 截断 机 制 。 

我 们 在 式 (11.3) 下 进行 讨论 , 即 不 失 一 般 性 ,Y, 在 零 处 截断 ,于 是 e, 在 
-和 B 处 截断 ( 即 ,s, > -XX'B) 。 很 清楚 地 , 的 均值 不 同 于 Y” 的 均值 。 对 于 
截断 数据 ,Y, 的 变动 将 会 低估 真实 值 Y” 的 变动 ,于 是 ,在 应 用 经 典 最 小 二 乘 方 
法 时 ,一 般 来 说 ,得 到 的 参数 估计 是 存在 向 零 的 偏 误 。 

处 理 截断 模型 最 简单 的 传统 参数 估计 方法 是 通过 似 然 法 来 估计 B, 这 需要 
为 u, 指定 一 个 具体 的 密度 函数 ,最 经 常 使 用 的 是 正 态 分 布 。 一 个 流行 的 方法 来 
H Heckman(1979) ,他 提出 了 一 个 只 使 用 涉及 工 >0 的 观测 值 的 两 步 过 程 。 给 
En 个 >0 的 观测 值 ,其 中 n, <n, 关 于 这 些 观测 值 的 回归 方程 为 ( 当 Y* >0 
时 ,Y,=Y; ) 

Y,=XB+e,, i=1,2,.…,n, 

现在 考虑 给 定 Y”>0 Bf Y, 的 条 件 期 望 , 即 


© 此 模型 有 时 被 称 为 “Tobit 模型 "(Tobin (1958))。Tobin 注意 到 支出 是 非 连续 的 ,只 有 "渴望 " 超 
出 了 某 一 水 平时 才 会 进行 购买 ,并 建立 了 家 庭 耐 用 品 支出 的 模型 。 因 此 ,只 有 确实 购买 了 商品 支出 才 不 
为 零 ,未 进行 购买 的 家 庭 则 支出 记 为 零 。 也 可 参考 Heckman (1976 ,1979 ) 。 
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E[Y,|X,,Y, >0] =X/8 + E[ s| Y, >0] 

=X B +E[e,|#, > - X; B] 
假定 e~ N(0,o?) ,扰动 项 e, REF X, AY’ >0( B) e, > -XB) 的 条 件 概 率 
密度 函数 给 出 如 下 

; 中 ( £;/0) I 
f(e,|e, > -X;B) EEr E > -XB 
Hp p A D 是 标准 正 态 随机 变量 的 概率 密度 函数 和 累积 分 布 函 数 。 于 是 ,&， 
的 条 件 期 望 为 
im! =i 
E[e,|e,> - X; p] = l = n "Papa 
$(X/0/o) 
D(X'B/o) 
= GÀ, 
其 中 A,=$(XiB/o)/B( XI B/o) 
考虑 到 e, 的 均值 非 零 ,于 是 关于 m 个 Y > 0 的 观测 值 的 回归 方程 可 写成 
Y,=X/B+oÀ, +u, i=1,2,.,n, 

其 中 ,显然 由 于 E(Y.|X,,Y, >0) =XB+oA,, 有 E(u|X,,Y, >0) =0。 若 入 可 
观测 , 则 可 以 应 用 最 小 二 乘 方法 来 估计 B( 和 er) , 且 得 到 的 估计 量 是 无 偏 的 。 然 
而 ,即使 A, 不 可 观测 ,给 定 正确 的 参数 设 定 的 条 件 下 ,可 以 得 到 一 致 估计 ,这 就 
引出 Heckman( 1979) 著名 的 两 步 估 计 过 程 ,其 中 入 ,通常 被 称 为 “Heckman 的 
À”. Heckman 的 方法 是 使 用 一 个 Probit 模型 ,有 观测 值 被 截断 则 结果 为 0 ,和 否则 


为 1, 通过 极 大 似 然 方法 首先 估计 出 不 可 观测 项 A,, 记 为 A,。 接 下 来 只 使 用 满足 
Y”>0 的 观测 值 来 估计 Y=X'B+o À, +e, ($I Amemiya(1985))。 若 我 们 令 
y=(B,0)',Z, = (XX,,A,) ,这 就 产生 了 一 个 具有 以 下 形式 的 最 小 二 乘 估计 量 ; 


s|] 5 22) L Y ŻY, 


显然 B 的 性 质 依赖 于 回归 方程 和 e 密度 的 正确 设 定 。 当 e, 的 密度 被 错误 设 定 
时 ,其 条 件 均值 本 身 将 被 误 设 从 而 导致 B 的 非 一 致 估计 。 

当 e, 具有 蜡 方差 时 ,最 大 似 然 估 计量 的 潜在 不 一 致 性 被 广泛 研究 ( 见 
Arabmazar 和 Schmidt( 1981 ) 以 及 其 中 的 参考 文献 ) ,而 经 典 回 归 模 型 中 正 态 条 件 
下 的 最 大 似 然 估 计量 当然 通常 是 一 致 的 。 

Powell(1984 ) 提出 了 一 个 流行 的 半 参 数 方法 ,其 对 存在 有 条 件 异 方差 以 及 


(11.4) 
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š 3 g a w% 5 = E] 


e, 分 布 的 错误 设 定 是 稳健 的 ,我们 将 在 11.2 节 进 行 讨论 。Powell 的 估计 量 是 一 
A L, 范 数 方法 (norm approach ) ,他 命名 为 “截断 最 小 绝对 离 差 (censored least 
absolute deviations ,CLAD)。 尽 管 比较 流行 ,但 是 当 截 断 很 严重 时 ,此 估计 量 就 
会 失效 。 一 个 Chen 和 Khan(2000) 提 出 的 基于 核 的 解决 方法 在 11.3 节 给 出 。 
我 们 现在 考虑 大 量 最 近 发 展 起 来 的 用 来 处 理 截 断 数据 的 半 参 数 估计 量 。 


11.2 半 参 数 截 断 回归 模型 


Powell( 1984 ) 的 截断 最 小 绝对 离 差 (CLAD ) 估 计量 使 用 了 一 个 与 Heckman 
(1979) 显著 不 同 的 方法 。Powell 考虑 了 最 小 绝对 方差 的 L, 范 数 方法 而 非 使 用 
最 小 二 乘 的 L, 范 数 方法 ,从 这 样 的 观测 开始 ,要 观察 到 V' 的 真实 值 , 在 误差 项 
e, 的 中 位 数 为 零 的 假定 下 ,其 中 位 数 应 与 回归 模型 X 8 重合 。 在 数据 为 左 截断 
的 情形 下 ,例如 零 为 截断 点 ,那么 中 位 数 依然 是 重合 的 ,如 果 对 样本 中 一 个 正 
的 部 分 的 个 体 ,真实 因 变量 Y, 的 典型 值 ( 即 中 位 数 ) 非 负 , 它 仍然 成 立 ,对 很 
多 总 体 这 都 是 合理 的 ,但 对 于 截断 严重 的 总 体 可 能 会 不 再 成 立 。 也 就 是 说 ， 
当世 被 截断 , 若 回归 函数 Xp 位 于 未 截断 区 间 中 , 则 Y. 的 中 位 数 不 受 截断 出 
现 的 影响 ,否则 了 的 中 位 数 将 是 截断 点 。 

利用 z, 条 件 中 位 数 为 零 的 约束 ,Powell (1984) 的 CLAD 估计 量 定义 为 使 
下 式 最 小 化 的 变量 : 


5S.(B) -二 条 IY, -—max| X'8,0] 1 (11.5) 
易 知 式 (11. 5) 等 价 于 最 小 化 
S.(p) -二 Y 1(X/p>0)1Y, -Xp (11.6) 


这 是 由 于 , 对 于 XB<0 的 观测 值 , 我 们 有 max (X/8,0) = 0, 于 是 
| Y, -max{X'B,0}| = |Y.|, 而 不 依赖 于 B。 令 B 表 示 最 小 化 式 (11: 6) 得 到 的 B 
的 估计 量 ,Powell 证 明了 如 下 结果 : 
à d A 
Vn(B-B)—>N(0, Viho) 

其 中 Vaan =4f°(0)EL1(X;B>0)X X1, PAO) H =, 在 原点 处 的 密度 。 假 定 
e; 独立 于 和 ,那么 f(0) =limP(0<e,<h) =limP(0<z,<h|X/8>0), TA, 
Powell 建议 使 用 下 式 来 估计 f( 0): 

1(X'B> OLO <£, < h) 


h> 1XB>O) 
i=l 


feo) = 
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£ L. s > v £ j i z 


Horowitz 和 Neumann ( 1987 ) 提出 了 一 个 不 同 的 估计 量 , 使 用 满足 $. B e 
[ A 


Saf- L< ,< +)1(Y, > 0) 


I (11.7) 
Hall 和 Horowitz (1990) #Ë# HI — 4 É A $£ 36 IÇ ER FE PR 8k. Newey 和 
Powell (1990) 修正 了 目标 函数 ,得 到 


2 w | Y, - max{ X;/6,0} | 

并 且 证 明了 最 佳 的 权重 应 为 w; = 2/(0|X,), E AYA H Bt WJ A g Jr 2# n] A UE 
明 为 {4E[1(X,B>0)f*(0|X,)XX,]} ,并 且 Newey 和 Powell 证 明 对 在 条 件 中 
位 数 为 零 的 约束 下 的 截断 回归 模型 ,该 渐 近 方差 等 于 半 参 数 有 效 边界 。 当 然 ， 
车 e, 独立 于 XX,, 则 f(0|X,) 为 一 常数 /(0) ,于 是 Newey 和 Powell 的 估计 量 退 化 
为 B。 

Powell(1986) 也 提出 了 一 个 B 的 对 称 截断 最 小 二 乘 估 计量 。 假 定 # 关于 
零 对 称 分 布 ,那么 s 具有 非 零 的 条 件 均 值 , 这 是 由 于 满足 e, > -Xp 的 观测 值 
是 被 截断 的 ; 若 同时 也 去 掉 e < X B 时 的 观测 值 ,那么 <, 的 条 件 均值 就 又 变 为 
零 。 因 此 ,可 以 用 满足 e; e [ -XB,X;B] 或 等 价 地 满足 Ye [0,28:B] 的 观测 值 
来 一 致 地 估计 B。 其 他 的 估计 方法 有 Newey (1991b) 提出 的 基于 广义 矩 的 估计 
方法 ,利用 误差 项 的 条 件 对 称 性 来 得 到 有 效 估计 量 , 再 基于 其 有 效 得 分 来 估计 
B, 以 及 Honoré 和 Powell (1994) 给 出 的 同 截 断 最 小 绝对 离 差 (identically cen- 
sored least absolute deviation ,ICLAD ) 估计 量 和 同 截 断 最 小 二 乘 (identically cen- 
sored least squares ,ICLS ) 估 计量 。 


11.3 具有 非 参数 异 方差 的 半 参 数 截 断 回 归 模 型 


Chen 和 Khan( 2000 ) 考 虑 了 关于 异 方 差 截断 线性 回归 模型 的 估计 过 程 , 它 
对 识别 条 件 的 要 求 比 Powell( 1984) ñJ CLAD 估计 量 要 弱 ,上 且 人 允许 各 种 程度 的 截 
Wio Chen 和 Khan 观察 到 当 和 矩阵 E[1( XX,B >0)X,X,] 不 是 满 秩 时 使 用 CLAD f 
计量 会 产生 严重 的 经 验 问题 ,于 是 B 不 可 识别 。 这 在 指标 X B 以 大 概率 取 负 值 
的 典型 情形 下 产生 ,数据 截断 严重 时 也 经 常 出 现 。Chen 和 Khan 通过 将 条 件 异 
方差 限制 为 乘积 形式 ,允许 比 Powell 的 CLAD 估计 量 更 弱 严 格 的 识别 条 件 。 他 
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们 将 误差 项 设 定 为 一 个 同方 差 的 误差 项 与 可 用 核 方 法 估计 的 回归 元 标量 肾 数 
的 乘积 。 他 们 假定 
se,=0(X.)v,,P(v < A|IX)=P(v < A)VAeR X, a.s. 
且 有 E(wv) =0,var(v) =1。 
注意 对 任意 ae (0,1) ,由 式 (11.3) 我 们 有 
q,( X;) =max{X.B +c or(X,),0} 
其 中 q.( ERRE X TY, 的 a 条 件 分 位 数 函 数 ,c。 定义 为 ww 分 布 (未 知 ) 
的 a 分 位 数 。 于 是 ,对 于 不 同 的 a, 与 m ,对 任意 的 9。( X) >0, 我 们 有 
qe (Xi) =X;B +c,c(X,) j=1,2 (11.8) 
Chen 和 Khan (2000) HÈ iH f B 的 两 个 估计 量 ,一 个 假定 w 具有 已 知 的 参数 
分 布 , 另 一 个 则 未 使 用 此 假定 。 我 们 只 讨论 后 一 个 估计 量 ,由 于 其 未 假定 的 
分 布 先 验 已 知 , 故 能 构成 更 一 般 情形 。 
由 式 (11.8) 可 以 证 明 (见习 题 11.2) 


q.(X,) = 无 B+ EAgor ,j=1,2 (11.9) 

其 中 5(.。) =(qg.(.)+g(.))M2,Aq(.)=qg (0(.)-q(.)，z= 
(co +e )/2,Ac Ecu -cs 。 式 (11.9) 意 味 着 可 以 对 了 ( ` AFX AGC ) 进 
行 回归 来 估计 B( 和 宛 余 参 数 y, = 5/Ac) ,其 中 和。 C DH q, C ) 的 某 一 非 参数 估 
计量 (j=1,2)。 于 是 ,Chen 和 Khan(2000 ) 建 议 通过 最 小 化 下 式 来 估计 B( 和 7? ) : 
1 > TCX Jwa (XL (X) -X B-y,4å.(X,)]? (11.10) 


Hp w, e ) 是 一 个 “平滑 " 权 函 数 ,只 对 第 一 步 中 超过 截断 值 的 估计 值 保 留 观测 
HD,- ) 是 一 个 具有 紧 支 撑 的 修 前 函数。 在 一 系列 正则 条 件 下 ,可 以 证 明 估 


计量 6 具有 参数 形式 的 Yn 收敛 率 且 具有 极限 正 态 分 布 。 

Cosslett( 2004 ) 提出 了 截断 和 断 尾 回归 模型 的 (不 同 的 ) 渐 近 有 效 的 似 然 半 
参数 估计 量 。 他 的 方法 基于 在 一 个 局 部 可 观测 回归 中 估计 残 差 的 密度 函数 ,类 
似 于 非 参 数 最 大 似 然 估计 量 , 且 考 虑 到 了 半 参 数 有 效 得 分 的 估计 。 


11.4 单 变量 Kaplan-Meier 累积 分 布 因数 估计 量 


当 出 现 截断 数据 时 ,还 存在 一 类 使 用 了 所 谓 的 Kaplan-Meier 累积 分 布 函数 


© 即 1(9。(X;) >0) 的 平滑 形式 。 
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估计 量 的 半 参 数 估计 量 。 我 们 简要 给 出 这 类 估计 量 的 描述 ,同时 也 给 出 一 个 关 
于 其 应 用 的 说 明 性 的 例子 。 

在 许多 应 用 中 ,对 随机 样本 的 所 有 成 员 都 做 出 完备 的 测定 通常 是 不 现实 
的 。 例 如 ,在 医疗 跟踪 调查 中 ,研究 接受 治疗 后 的 存活 期 的 分 布 时 , 某 些 个 体 可 
能 在 其 死亡 前 就 与 跟踪 调查 失去 联系 。 类 似 地 ,对 真空 管 寿命 的 观测 可 能 会 由 
于 测试 设施 移 作 他 用 而 终止 。 以 上 两 个 例子 中 数据 都 可 能 被 截断 。 

Kaplan 和 Meier(1958) 提 出 一 种 新 的 乘积 极限 (product-limit) 估 计量 用 来 
估计 累积 分 布 函数 FF(， ) 或 者 生存 函数 S(…)=1-F(，.)。 令 了 ,…,Y 为 从 
分 布下 或 5 抽取 的 感 兴 趣 的 随机 样本 (如 病人 的 存活 月 数 )。 令 工 ,… L. 为 一 
独立 于 所 有 Y, 的 (随机 或 固定 ) 截 断 变量 。 定 义 

Z, = mini Y,,L,| ,8,=1(Y,<L,) (11.11) 

然后 我 们 观察 Z, 与 5,; 然 而 , 若 5,=0, 世 的 准确 值 是 未 知 的 。 在 医疗 跟 
踪 调 查 的 例子 中 , 是 存活 时 间 ,如 果 在 调查 结束 之 前 观测 到 了 病人 的 死亡 ， 
那么 Y, 就 可 观测 到 (5;, =1)。 然 而 ,如 果 在 时 期 L,( 即 还 在 调查 进行 期 间 ) 失 
去 了 与 病人 的 联系 ,那么 我 们 就 不 能 得 到 Y, 的 准确 值 ,事实 上 ,我 们 只 知道 
Y, >L,。 另 外 ,如 果 病 人 在 调查 结束 后 依然 存活 ,我们 也 不 能 观察 到 Y; 的 准确 
值 。 

定义 一 递增 的 点 列 co ,cl ,… ,ce ,累积 分 布 函 数 下 (或 生存 函数 5) 在 其 上 取 
值 。 另 定义 上 =1(Y>e ) , 当 了 大 于 c 时 , 取 值 为 1, 反 之 为 0。 由 于 工 是 随机 变 
量 ,由 条 件 概 率 公 式 我 们 有 (因为 1 =1 意味 着 1_, =1) 

P(L =1) 
P(L_,=1) 
P(c; < Y<ec;) 
P(Y >e, ,) 
通过 取 足 够 小 的 c, 值 ,如 取 小 于 数据 中 观测 值 的 最 小 值 ,我 们 总 能 保证 
P(1,=1) =1。 也 就 是 说 ,所 有 项 初期 都 处 于 存活 状态 。 在 不 存在 截断 的 情形 
下 ,我 们 用 下 式 来 估计 式 (11. 12): 


P(L=111.,=1) =a, [#Y, >c] 


P(T =1I71 ,=1) = 


=] = (11.12) 


P(L., =1) 工程 >G] 
_， [# 区 间 c., <Y <c r É Y, ] 
"t pa ` (11.13) 


重复 运用 P(1 =1) = (1 =1I1. ,=1)P(D ,=1) 可 以 得 到 以 下 用 来 估计 生存 
函数 S(c,) =P =1) 的 估计 量 (P(m =1) =1 应 用 于 下 面 的 式 (11. 14) ) : 
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P(I, =1)= [| PQ, =11 La = 1) 


[#Y, >c] [#Y, >c] 


IW, > ca] [#Y, > c] 


[# > c] _ 1 _ a 
= [#Y, > c] = — LBY, > c; ] =1-F (c;) (11.14) 
HPE c) =n [AYS oj] 为 标准 的 经 验 累积 分 布 函数 。 
当 数 据 被 截断 时 , Kaplan 和 Meier(1958 ) 提出 修改 式 (11.13) 如 下 : 


[# 区 间 Cj-1 < 六 三 Ci 中 的 未 截断 Y,] 


P(L =111.,=1) =1- (11.15) 


[#Y,>c,_,] 
存活 率 通过 下 式 来 计算 : 
S(c) = P(L = 1) = 站 ŝa, =117，=1) (11. 16) 
累积 分 布 函数 通过 下 式 来 估计 ， — 
F(e) = 1 -Š(c) =1- I P(lL, = 11 L.) (11.17) 


我 们 借用 Kaplan 和 Meier( 1958) 的 一 个 例子 来 说 明 如 何 应 用 式 (11. 15 ) 和 
式 (11. 16) 来 估计 存活 率 。 假 定 初始 有 100 个 观察 项 ( 即 病人 )。 定 义 n 为 存 
活期 超出 cj-, 的 项 的 数目 ,y 为 在 c_1 与 c 期 间 死 亡 的 数目 ,和 A 为 c 时 截断 ( 丢 
失 ) 的 项 数 ( 假 定 对 应 于 Y >c)。 详 细 的 数据 在 表 11. 1 中 给 出 ,同时 给 出 的 还 
有 基于 Kaplan 和 Meier 的 乘积 极限 估计 量 的 估计 以 及 忽略 截断 的 传统 估计 量 ， 
其 中 我 们 假定 截断 (缺失 的 观测 值 ) 只 出 现在 1.7.3.6 和 5。 

表 11. 1 中 Kaplan-Meier 条 件 存 活 率 Pi，, = P(1 =1|7-, =1) 是 通过 式 
(11.15) 计 算出 的 。 例 如 ,P(L =1|7 =1) =1 -5/97 =92/97 ,这 是 由 于 有 97 项 存 
活 超过 了 c ,而 c, 和 c, 之 间 发 生 了 5 例 死亡 (不 包括 截断 项 ) 。 生 存 函 数 5" 可 以 
使 用 式 (11. 16) 作为 条 件 概率 的 乘积 得 到 。 例 如 ,S"(c) = (97/100)(92/97) = 
0.92。 注 意 传统 方法 得 到 的 5"(6) 不 考虑 截断 ,将 得 到 Pr, = 1 - 25/97 = 
72/97 ,这 是 由 于 其 对 截断 项 和 未 截断 项 同样 对 待 , 即 均 被 当 作 死亡 对 待 (20 +5 = 
25 例 死亡 ) ,这 将 导致 对 真实 存活 率 的 低估 , 即 $"(c,) = (97/100) ( 72/97) = 0. 72 


<Se(c)。 
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g x. % # = = y ba $ 


表 11.1 存活 的 频数 估计 量 与 Kaplan-Meier 估计 量 及 截断 存活 时 间 数 据 的 累积 分 布 函数 


~ 


oj-1—o n yy NP, E= Ce) Pir S" (e) 
0—1 100 3 0 977/100 0. 97 977/100 0. 97 
1 一 1.7 97 5 20 92/97 0. 92 72/97 0.72 
1. 7 一 2 72 4 0 68/72 0. 87 68/72 0. 68 
2—3 68 10 0 58/68 0.74 58/68 0.58 
3 一 3.6 58 9 12 49/58 0.63 37/58 0.37 
3.6—4 37 6 0 31⁄37 0.52 31⁄37 0.31 
4—5 31 15 16 16/31 0.27 0/31 0 


注 : 其 中 上 标 km 表示 Kaplan-Meier,n 表示 忽略 截断 的 传统 估计 量 。 


Kaplan-Meier 乘积 极限 估计 量 已 应 用 于 多 种 具有 截断 数据 的 非 参 数 与 半 参 
数 模型 中 。 例 如 ,Horowitz(1986 ,1988 ) 应 用 Kaplan 和 Meier( 1958 ) 的 方法 构建 
了 一 个 具有 截断 数据 的 线性 回归 模型 的 估计 量 。 在 讨论 估计 具有 截断 数据 的 
非 参 数 和 半 参 数 模型 之 前 ,我 们 先 来 讨论 截断 数据 的 多 变量 累积 分 布 函数 
估计 。 


11.5 多 变量 Kaplan-Meier 累积 分 布 图 数 估 计量 


下 述 讨论 中 ,我 们 保留 前 一 节 中 使 用 的 符号 , 即 Z, = min (Y,,L.), 8, = 
1( Y < DJa 令 Z, ,表示 有 序 的 满足 Zin < Zan < < 2 ,的 Z 值 ,61;.,] 表 示 与 
2Z,,. 相 对 应 的 65 值 。 有 了 这 些 符号 ,上 节 最 后 讨论 的 (YY) 的 Kaplan-Meier 估计 
量 即 如 下 乘积 极限 估计 量 F,(y) : 


1(Ziasy) 


I - F,(y) = I|: _ Êu ] (11.18) 





n-i+l 
Kaplan 和 Meier( 1958) 证 明了 式 (11. 18) EX HJF, ( `) F( + ) 的 最 大 似 然 估 
计量 。 
Stute(1993) 把 乘积 极限 估计 量 扩 展 到 了 多 变量 框架 。 令 F(y,x)3 ZR 
(了 Y,X) 的 联合 累积 分 布 函 数 ,其 中 庆 是 一 个 g 维 连续 随机 变量 。Stute 提出 用 下 
式 来 估计 F(y,x) : 


F.(y.s) = S WAX Es Zn EY) (11.19) 
其 中 
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8 R a X a 党 R S 


[jn] 


OLi,n] 


i=l i 
s nt, 
| II Kerr 


是 在 Kaplan-Meier 估计 量 中 关于 2Z,,, 的 质量 (mass) ,X 为 对 应 于 Zn WJ X É 
观测 值 。 

Stute(1993) 证 明了 F,(y,x) 的 一 致 性 。 事 实 上 ,Stute 证 明了 对 一 大 类 统计 
函数 5, 有 S( F,) 一 S( 下 ) 依 概率 1 收敛 。Stute( 1996) 进 一 步 建立 了 F,(，: ) 的 渐 
近 分 布 ,具体 是 通过 考虑 一 个 一 般 的 线性 函数 下 , ,定义 为 


st = S W.Q(X/. Z, .) = fea F, (11.21) 


(11.20) 








其 中 F, 为 定义 在 式 (11. 19) 中 的 F(y,x) 的 Kaplan-Meier 估计 量 ,由 ( >, +) 8 
(X iing in) 的 一 个 平滑 函数 。 
在 一 些 正 则 条 件 下 ,Stute(1996) 证 明了 
vn(S -5S*) 一 N(0,a3) 依 分 布 收敛 (11. 22) 
其 中 os 是 Vns* 的 渐 近 方差 (os 的 显 性 表达 式 见 Stute(1996 , p.464) ) 。 
注意 从 式 (11. 19) PEE x 可 得 到 一 个 F(y) 的 不 同 估计 量 : 


F,(y) = 时 W,1(Z.,<y) (11.23) 
其 中 W.tEsK (11. 20) 中 定义 。 习 题 11.3 要 求 读者 证 明 式 (11. 18 ) 中 和 定义 的 


F,(y) 与 式 (11.23 ) 中 定义 的 玉 .(y) 确实 是 相同 的 。 

Cai(2001 ) 把 Kaplan 和 Meier(1958 ) 的 乘积 极限 估计 量 推广 到 了 相依 数据 
( dependent data) 情形 ,同时 建立 了 对 a 混合 数据 (a-mixing data ) 估计 量 的 强 一 
致 性 。Lai 和 Ying(1991) 以 及 Lin 和 Ying (1999 ) 也 探讨 了 存在 截断 数据 时 分 
布 函 数 的 非 参 数 估计 问题 。 


11.5.1 具有 随机 截断 的 非 参 数 回归 模型 


接 下 来 ,我们 讨论 一 个 具有 随机 截断 相依 数据 的 非 参数 回归 模型 的 估计 。 
我 们 重点 关注 Fan 和 Gijbels( 1992) 以 及 Cai(2003 ) 提出 的 局 部 线性 估计 量 。 模 
型 如 下 : 

Y, =g(X,) +u, (11.24) 
其 中 了 ,为 因 变量 ,可 以 是 一 个 个 体 的 存活 时 间或 者 某 些 试验 研究 的 对 象 ,X, 是 
相对 应 的 4 维 协 变量 。 为 了 表述 方便 ,我 们 假定 X; 是 一 个 4 维 连续 随机 变量 向 
量 。 截 断 方法 下 ,不 是 观察 Y, ,而 是 观察 Z, = min( Y,,L,) M ô =1( Y,< L.), B 
此 ,观测 值 是 来 自 {Z,X,6} 的 一 个 随机 样本 {2;,X; ,6,}_,。 
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首先 ,注意 不 存在 截断 数据 时 ,g(， ) 的 传统 的 局 部 线性 估计 量 可 以 通过 关 
F a 和 4 最 小 化 以 下 目标 函数 (a 估计 的 是 g(xo) ) 来 得 到 : 


fiy -a -(x- xo) b] 'K,,  dF,(x,y) 
=TYIY- a - (X, - 5) ?Kaa (11.25) 


其 中 Kra =K,(x,x,) E 38 882 PS 3. F.(x,y) ERAEN {X,Y 1. KI ( ba 
准 ) 经 验 分 布 。 存 在 截断 数据 时 ,Fan 和 Gijbels(1992) 以 及 Cai(2003 ) 建议 用 


Fe, ) 来 替换 式 (11.25) 中 的 经 验 累积 分 布 函数 F,(， ,* ),F,(. ,* ) 是 
F(，,，) 的 Kaplan 和 Meier(1958) 估 计量 。 于 是 ,我 们 通过 最 小 化 以 下 目标 函 
数 来 估计 g( xo): 


| [> -a — (x - x) b] KK (xxo)d F (x,y) 


= 7 W.[Z,. -0 — (Xina) 20) b] Kors (11.26) 
其 中 Wa, Zo M Xi ,1 均 按 11.5 节 中 的 定义 。 
令 a(%6) 和 4b(xo) 表 示 最 小 化 式 (11. 26) 时 a 与 b 的 值 ,那么 h(x) 估 计 了 
g( xo)。 由 标准 最 小 二 乘 公 式 ,我们 有 (用 x 替换 xo) 
Ba 


b( ,| > W.K,(X(.,.,z)[1,(X.,. ma) T T, (Xira -x)"]] 
x fai 


x[ >` WK, (Xim t) [1, (Xin -z)']”Z,.] (11.27) 


Fan 和 Gijbels( 1992) 以 及 Cai(2003 ) 证 明了 如 下 结果 ,其 中 g(x) =a(x) 如 
式 (11. 27) 中 所 定义 。 
定理 11.1 在 一 定 的 正则 条 件 下 ,有 


VRN [ix) - g0) - ya, 0] NO0,z.) 
s=1 


Hp g(x) =Ə°g(x)/əx',X, =k' v(x)/f(x) ,其 中 v(x) =E[Y {1 -G(Y)) '], 
G( - ) H L, 的 累积 分 布 函 数 ( 即 截断 变量 )。 

注意 渐 近 偏 误 与 未 截断 数据 的 局 部 线性 估计 量 所 得 到 的 是 相同 的 ,这 是 很 
有 趣 的 现象 。 然 而 ,截断 情形 下 的 渐 近 方差 是 大 于 相应 未 截断 情形 下 的 渐 近 方 
差 的 。 当 完全 不 存在 截断 时 ,可 以 设 定 6G=0, 则 Z. 退化 为 <'E( Y: |X; =x)/ 
f(x) , 正 是 未 截断 情形 下 的 渐 近 方差 。 

Cai( 2003 ) 进一步 证 明了 lim。.。 var( £, ,(xz)) =x°v(x)f(x), FEP £. (z) = 
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& 党 Š x 88 8; 1 $ š 


hih, K(Xi,x) [1 一 G(2,)] 6,, 中 间 涉 及 了 未 知 的 截断 分 布 C(，) 。 在 变量 
L, 不 依赖 协 于 变量 X, 的 假定 下 ,可 以 使 用 Kaplan-Meier 乘积 极限 估计 量 来 估计 
6C(.), 即 1-6C(z) = |] icn- p/n -j+ 1) 0m。 这 可 以 导出 (x) 
的 一 个 估计 量 志 ;(x*) = hh K(X sa) L1- G(Z)] 5i。 因 此 , 马 的 一 个 一 

致 估计 量 为 my (ë. (z) - (x)}6,, 其 中 Ea) n Y £. (z). 
其 他 的 相关 工作 包括 Fan, Gijbels 和 King(1997) ,他 们 提出 了 一 个 局 部 似 


然 和 半 参 数 局 部 似 然 方法 ,用 来 估计 半 参 数 风险 函数 ,以 及 Cai 和 Sun (2003) , 
他 们 应 用 了 局 部 似 然 方法 来 估计 半 参 数 变 系数 风险 函数 。 


11.6 非 参 数 截断 回归 


11.6.1 Lewbel 和 Linton 的 方法 


Lewbel 和 Linton(2002 ) 考虑 了 形 如 了 = max í g( X.) -eic} 的 截断 回归 模 
型 ,其 中 g(，* ) 是 对 未 截断 总 体 的 条 件 期 望 ,截断 点 c 假定 为 一 已 知 常数 (模型 
EHE g-e 而 非 通常 的 g +e 是 因为 可 以 简化 后 面 的 结果 )。 阁 有 Ele) =0, 则 
函数 g(X,) 等 同 于 未 截断 总 体 的 回归 函数 。 

Lewbel 和 Linton(2002) 考虑 了 函数 g(，) 和 F(，)(e; 的 分 布 ) 的 完全 非 
参数 估计 ,这 两 个 函数 都 假定 是 未 知 的 。 给 定 条 件 下 ,g(， ) 可 以 被 一 致 估计 ， 
F HHE g(，) 时 也 可 被 估计 。 

以 下 讨论 中 ,我 们 定义 如 下 函数 :r(x) =E( Y|x) ,q(7) =E[L1(Y>0)Ir(X) =r]。 
Lewbel 和 Linton(2002) 证 明了 对 某 些 较 大 的 常数 Ao, 


ào l 
g(x) = Ào- Í. Ta” 


式 (11.28) 提 供 了 估计 g(') 的 基础 。Lewbel 和 Linton (2002) 提出 了 下 面 
的 两 步 过 程 。 首 先 , 使 用 一 个 局 部 多 项 式 估 计量 来 估计 回归 函数 ECY, | x.) = 
r( X.) , 称 其 为 r(X) 。 接 下 来 , 令 g(7r) 为 1(Y > 0) 关于 生成 的 回归 元 X) 的 
一 维 非 参 数 回归 。 那 么 ,对 某 些 固 定 的 正 A, 

à 1 

tc x qlr) 

此 单 变量 积分 易 通 过 数值 方法 来 计算 ;于 是 也 可 以 方便 地 计算 出 8g(X)。 令 入， 
= sup,.ər(x) , À, = sup。en,8 ,其 中 人 2 和 0 分别 是 x 和 的 支撑 。 若 有 和 ,> 


(11.28) 


dr 





£CX) = Ào -| 
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“ E = E m” © < = 名 


A., 在 实际 应 用 中 ,可 以 用 入 = maxi n FC X.) RE Ày = max,.,.. ,Y, 来 代替 
Ào o 

A r(x) = ðr(x)/ðx, (l = 1,…,qg),s(z) = ELICY? > 0)|X, = xl , 偏 
导数 估计 为 
r(x) 

s(x) 
Hep #,(z) 5 s(z) 分 别 为 r,(x) 5 s(x) 的 局 部 多 项 式 估计 量 。 

Lewbel 和 Linton (2002) 给 出 了 g(x) # g(x) 能 够 分 别 一 致 且 渐 近 正 态 估 
iF g(x) 与 g,(x) KRt. ali, S oi (x) = var( Y| X = x) ,f(x) 为 的 概 
率 密度 函数 ,Lewbel 和 Linton 证 明了 

nh - g(=) - Sno ELN Ct.29 
h (B(x) - g(x) > b,a) [0.228 o ) 


ee a san 
数 , bO) 是 一 些 平滑 且 有 界 的 函数 。 平 滑 参数 需要 满足 的 条 件 是 h, > 0 (所 


有 1 = 1 ) 且 Cnh…h,) DK < me 。 如 果 将 平滑 条 件 痊 换 为 一 个 开平 


g(x) = 


的 条 件 Cnh, TEDA — 0 ,那么 偏 误 首 项 可 以 被 忽略 掉 且 估计 量 g(x) - 
g(x) 变 为 真正 的 以 零 为 中 心 。 
11.6.2 Chen,Dahl 和 Khan 的 方法 


Chen ,Dahl 和 Khan (2005) 对 于 非 参 数 截断 回归 模型 提出 了 一 个 替代 的 估 
计 方 法 。 为 了 解决 对 小 于 截断 点 范围 内 位 置 函 数 的 估计 感 兴 趣 带 来 的 一 系列 
问题 ,Chan ,Dahl 和 Khan 提出 了 一 个 非 参数 位 置 一 尺度 (location-scale ) 模型 的 
扩展 来 处 理 数 据 。 他 们 考虑 模型 
7”= g(X,) + G( X,)e, 
Y, =maxt Y; ,0} 
其 中 Y; 是 未 观测 的 潜 因 变量 , Y, 是 可 观测 的 因 变 量 , 当 超出 固定 的 截断 点 ( 零 
点 ) 时 等 于 Y ,其 他 情形 则 为 0。X 是 可 观测 的 q 维 随机 向 量 ,s; 是 具有 零 均 
值 .单位 方差 的 独立 同 分 布 扰动 项 ,其 分 布 独立 于 XX o 
Chen ,Dahl 和 Khan (2005 ) 给 出 了 在 施加 了 位 置 约束 后 , g(x) 可 以 被 识别 
以 及 估计 所 需要 的 条 件 , 即 e; 的 中 位 数 为 零 , 他 们 可 以 在 X; 的 整个 支撑 集 上 识 
别 g(x) ,而 不 是 仅仅 在 超出 截断 点 的 范围 可 以 识别 。 他 们 的 方法 基于 条 件 均 
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值 与 满足 g( X) 三 0 的 蕊 的 上 分 位 点 之 间 的 结构 关系 , 且 要 求 满足 条 件 
P(SECX) 三 0) > 0。 

在 s; 与 X; 独立 的 假定 下 ,也 假定 z, 的 概率 密度 函数 在 R 上 为 正 , 这 时 , 存 
在 分 位 点 e, < e, < 1 使 得 

qa, (x) = g(x) + cao (x) >0, j=1,2 (11.30) 

其 中 q.(x) 是 了 ,的 a 条 件 分 位 点 ,条 件 于 和 = ax, c, WME z, 的 第 a 分 位 值 。 

式 (11.30) 给 出 了 估计 zg(:) 与 o(*) 的 回归 框架 。 一旦 我 们 得 到 gq。.(*) 和 
cale) 的 估计 量 , 如 9.(*) 和 c(*) ,我 们 就 可 以 关于 (C) 回归 4。(…) 来 得 到 
lal) Al cal) 的 估计 。 

注意 从 式 (11.30) 与 gos(x) = g(x) (由 于 se 具有 中 位 数 零 ) 的 事实 可 以 
导出 go(z*) = qos(x) +couc(z)(J = 1,2 ), 从 这 两 个 方程 中 解 出 c。 得 到 
Ü qu (x) -= gos(x) 
u qa, (x) = qos (x) 

我 们 现在 来 讨论 Chen ,Dahl 和 Khan(2005) 给 出 的 三 步 估计 过 程 。 

(i) 使 用 一 个 局 部 常数 方法 对 每 个 观察 点 马 估计 q. CX) 。 令 qa CX) K 
示 用 来 决定 那些 中 位 数 超出 截断 值 。 的 观测 值 的 估计 值 。 

Cii) 计算 局 部 多 项 式 估 计量 的 一 个 加 权 平 均 来 估计 未 知 扰动 分 位 数 c。， 
1 = 1,…,N ,其 中 6c 等 于 


(11.31) 


c 


az 


m. _ (q.(X)- qas(KX))/( q. (X)- 了 (TD)) 
TCX) ne 
1= 1 


二 T(X)w Gos(X)) 
其 中 wl) 是 一 权重 函数 ,符号 ” ~“ 表示 第 二 步 估 计量 (这 是 为 了 和 第 一 步 估 
计量 (符号 为 - ) qa s (z) 进行 区 别 ) 。 

(iii) 使 用 局 部 多 项 式 方法 ,在 感 兴趣 的 点 x ( x 可 以 不 是 观测 点 ) 处 估计 
q.( °) ,BD 

q. (x) = g(x) +c,CG(x) 

对 任意 满足 q. (x > 0) 的 e, 均 成 立 。 令 0(z) = (g(x),a(x))', 0(z) = 
(8(x) ,G(x))'。 令 5。 = (1,6,)，d。 表示 示 性 函数 115。> s] ,其 中 e > 0 
为 一 较 小 的 常数 ,估计 量 6(x) 为 


a) = (> d...) > d. ê, Ga (x) (11.32) 


其 中 g。(x) 为 第 三 步 中 g。(x) 的 非 参数 估计 量 。 
Qh, ,j= 1,2,3 ,表示 第 j 步 中 关于 X,(s = 1,…,g ) 的 平滑 参数 Chen, 
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Dahl 和 Khan(2005 ) 假 定 , 对 所 有 的 s = 1,…,g， 

(i) h, — 0 B. nhh, /n(n— œ o 

(ii) họ, = on™) H mh h, ZIn(n)— œ , 

(iii) HARKERS c A h, = cm >, 

注意 第 一 步 估计 量 仅 在 计算 c。 时 出 现在 w(gos:(X)) CEH h, ) 中 ,其 中 
w(') 用 来 选择 中 位 数 为 正 的 观测 值 。 第 二 步 估 计量 为 9 。(X) (使 用 h,, ) ,也 
被 用 来 计算 c。。 最 后 ,第 三 步 估 计量 为 g(x) (使 用 心 , ) ,以 其 来 计算 式 
(11.32) 中 定义 的 6(x) 。 

估计 量 的 渐 近 性 质 参 考 Chen ,Dahl 和 Khan(2005) 。 


11.7 习题 


习题 11.1 推导 式 (11.4)。 
习题 11.2 推导 式 (11.9)。 


习题 11.3 证 明 式 (11. 18) 中 定义 的 F.C) 与 式 (11. 23 ) 中 定义 的 F.C) 


相同 。 
习题 11.4 推导 式 (11. 31)。 


[=] [=] [=] [m] [s] [m] [m] [=] ol 国 [m] ol 
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[z] [=] [m] [m] [s] [=] [s] [s] [m] [s] [m] [m] 
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如 同 我 们 在 第 1 章 开 始 讨论 的 ,正确 设 定 参数 模型 
是 估计 和 推断 问题 的 最 佳 解决 办 法 。 但 遗憾 的 是 ,理论 
在 恰当 的 函数 设 定 方面 很 少 提供 任何 指导 。 因 此 ,在 现 
实 中 我 们 必然 会 面临 参数 模型 可 能 设 定 不 正确 的 情形 , 
这 就 典型 地 形成 “模型 设 定 检验 ”。 很 多 常用 的 参数 模 
型 设 定 检验 本 质 上 要 求 用 户 设 定 对 立 参 数 集 , 如 果 数 据 
生成 过 程 服从 设 定 的 对 立 模 型 , 原 假定 将 被 拒绝 。 如 果 
存在 一 些 这 个 检验 不 能 检测 的 对 立 模 型 ,那么 这 个 检验 
被 称 为 一 个 " 非 一 致 检验 ”, 因 为 它 缺 少 某 一 方面 的 检验 
功效 。 非 参数 方法 一 个 普遍 的 应 用 是 检测 不 正确 设 定 
的 参数 模型 。 我 们 现在 将 讨论 如 何 使 用 非 参 数 技术 来 
构造 一 致 的 模型 设 定 检验 。 

我 们 首先 给 出 “一 致 检验 ”的 定义 。 定 义 H, 为 一 个 
原 假定 ,我 们 希望 检验 此 原 假 定 的 有 效 性 。 如 果 当 "一 
æ% ,P( 把 绝 H.H, 不 成 立 ) 一 1 ,那么 一 个 检验 被 称 为 一 
个 一 致 性 检验 。 

检验 功效 定义 为 P( 拒 绝 H, |H 不 成 立 )。 因 此 ,一 
个 一 致 性 检验 具有 等 于 1 的 渐 近 功效 。 假 定 我 们 要 检验 
两 个 地 区 的 收入 分 布 (或 者 可 能 是 同一 个 地 区 在 两 个 不 
同时 期 的 分 布 ) 是 否 相 同 。 用 fA ， ) 和 g(， ) 分 别 表示 
这 两 个 收入 分 布 。 那 么 对 于 所 有 的 xe R , 原 假定 为 
Fx) =g(x)。 参 数 方 法 以 为 ， ) 和 g(， ) 假 定 一 个 参 
数 族 开始 ,例如 ,假定 f(* ) 和 g(…) 都 属于 正 态 分 布 
族 。 因 为 一 个 正 态 分 布 可 以 完全 由 它 的 均值 和 方差 刻 
画 ,我 们 将 对 这 两 个 分 布 的 均值 和 方差 是 否 相 同 进行 检 
验 , 如 果 正 态 性 假定 是 正确 的 ,那么 当然 这 个 参数 方法 
有 效 。 然 而 , 当 潜在 分 布设 定 不 正确 时 ,参数 检验 将 得 
到 误导 性 的 结果 。 例 如 :所 JAg ) 可 能 不 属于 相同 
的 分 布 族 ,尽管 这 两 个 分 布 可 能 事实 上 具有 相同 的 均值 
和 方差 。 在 这 样 的 情况 下 ,基于 正 态 性 假定 的 参数 检验 
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ko s && 你 8 w% 发 še EY 


可 能 会 不 拒绝 一 个 不 正确 的 原 假定 ,也 就 是 没有 检验 功效 。 因 此 ,参数 检验 不 
是 一 个 一 致 性 检验 。 在 这 个 例子 中 , 当 正 态 性 假定 正确 时 ,参数 检验 具有 等 于 1 
的 渐 近 检验 功效 ,但 是 当 假 定 的 分 布设 定 不 正确 时 , 则 可 能 没有 检验 的 功效 。 
也 就 是 说 ,对 每 一 个 偏离 原 假定 的 可 能 , 它 将 不 具有 等 于 1 的 渐 近 功效 。 

与 对 应 的 参数 方法 不 同 , 非 参数 方法 可 以 用 来 构造 在 每 一 个 方面 都 具有 检 
验 功 效 的 一 致 性 检验 。 我 们 可 以 采用 非 参 数 技术 来 估计 fA ，) 和 g(， ) ,然后 
检验 对 于 全 部 的 x 是 否 都 有 f(x) =g) f( ` ) 和 g(， ) 这 两 个 分 布 之 间 一 个 
方便 的 距离 测度 是 它们 的 积分 平方 差 : 


J = fr) - g(x) ]?dx 


我 们 可 以 观察 到 当 WR, J=0;H Ap 3rhi,J>0, RE ,J 值 为 一 致 
检验 H, 提供 了 一 个 良好 的 基准 。 我 们 将 在 12.2 节 讨 论 如 何 基 于 一 个 了 的 核 
估计 来 检验 H,. 

让 我 们 考虑 另 一 个 例子 ,在 这 个 例子 中 我 们 的 目的 是 检验 以 下 形式 的 线性 
回归 模型 是 否 设 定 正确 : 

Y, =a +X: B + u, (2.1) 
其 中 ,X; 是 g x1 维 的 变量 ,B= (B,,…,B,)',al( 一 个 标量 ) 是 未 知 参 数 。 

通过 把 式 (12.1) 符 套 进 一 个 更 大 的 参数 模型 ,传统 的 为 检验 遗漏 变量 的 下 
检验 和 上 检验 可 以 用 于 检验 式 (12.1) 的 形式 是 否 正确 。 但 是 ,这 些 基 于 参数 模 
型 的 检验 只 在 某 些 方面 具有 检验 功效 ,正如 我 们 下 面 要 讨论 的 。 

为 了 表达 简洁 ,我 们 假定 X, 是 一 个 标量 。 标 准 :检验 (或 者 检验 ) 可 以 
用 于 检验 假定 

Ho:Y, = a +BX,+u, (12. 2) 
备 择 假 定 为 
H,:Y, = a +BX, + B,X: + u, (12.3) 
如 果 H h KOS) , 则 一 个 参数 上 或 者 了 检验 将 具有 功效 来 检验 真实 模型 是 
HH, 的 事实 。 因 此 , 当 对 原 假定 模型 的 偏离 落 在 有 ,的 方向 内 时 ,一 个 参数 检验 
被 期 望 具有 较 好 的 检验 功效 。 

但 是 ,我 们 注意 到 ,并 不 是 Hi, 的 补 集 。 也 就 是 说 , 当 HH 不 成 立时 ,并 不 
必然 意味 着 有 ,是 正确 的 。 事 实 上 ,假定 下 面 的 方程 代表 真实 模型 : 

Hy:Y, = a + B,X, + B,X + u, (12.4) 

如 果 ;是 真实 的 模型 , 则 已 。 或 者 H. #E AS k: ERER MERT 
PRE X, 是 以 0 为 中 心 的 对 称 分布 ( 因 此 ,对 于 1=1,3,5, 有 EE(X) =0), i 


时 ,Bb, 20( 见 习题 12.1) ,这 里 记 是 基于 模型 (12.3) 对 B, 的 最 小 二 乘 估计 值 。 
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这 意味 着 基于 模型 (12.3 ) 估 计 的 一 个 标准 上 检验 (或 者 下 检验 ) 将 缺乏 检验 功 
效 ,在 实践 中 很 可 能 没有 拒绝 错误 的 原 假定 模型 (12.2)。 因 此 , 当 原 假定 不 成 
立时 ,一 个 参数 检验 不 能 在 每 一 个 方向 都 具有 检验 功效 ,从 而 不 能 构成 一 致 检 
验 的 基础 。 然 而 非 参 数 方 法 可 以 用 来 构造 一 个 在 所 有 方向 都 偏离 原 假定 模型 ， 
但 仍 具有 检验 功效 的 模型 设 定 检 验 ,这 解释 了 为 什么 非 参 数 方法 如 此 具有 吸引 
力 。Bierens(1982) 应 该 是 第 一 个 提出 了 对 正确 参数 回归 函数 形式 的 一 致 ( 非 平 
滑 ) 检 验 , 而 Ullah(1985 ) 使 用 了 非 参 数 平滑 技术 来 考虑 一 致 模型 设 定 检验 。 

在 这 一 章 中 余下 的 部 分 我 们 将 讨论 如 何 使 用 非 参 数 方法 来 构造 一 致 的 核 
估计 模型 设 定 检验 。 也 可 以 不 使 用 非 参数 技术 来 构造 模型 设 定 检验 ,我 们 把 这 
第 二 种 类 型 的 检验 称 为 “ 非 平滑 检验 "(我 们 将 在 第 13 章 讨论 这 类 检验 ) 。 一 致 
k 近邻 估计 和 序列 模型 设 定 检验 将 分 别 在 第 14 和 第 15 章 中 讲述 。 


12.1 一 个 简单 的 关于 参数 回归 模型 次 数 形式 的 一 致 检验 


我 们 可 以 基于 | [&(x) - å - *B]: 来 检验 一 个 线性 回归 模型 是 否 正确 设 定 ， 


其 中 &(x) 是 g(x) =E(YIx) 的 非 参 数 估计 ,& 和 8p 是 线性 回归 模型 a A A 的 最 小 
二 乘 估计 值 。 但 是 ,如 我 们 即将 证 明 的 ,使 用 这 种 基于 回归 的 检验 ,以 一 个 条 件 矩 
检验 的 形式 , 它 的 原 假定 是 到 :E(ulx) =0, 对 几乎 所 有 的 * 都 是 可 取 的 ,其 中 
和 zx 的 定义 依赖 于 特定 的 模型 和 要 检验 的 原 假 定 。 在 上 述 考虑 检验 一 个 线性 回 
归 模 型 的 例子 中 ,可 以 定义 u=Y-a-X'B; 因 此 几乎 处 处 有 E(ulx) =0, 相 当 于 几 
平 处 处 有 E(Ylx) =a+x'B。 

我 们 现在 考虑 根据 1=E[uE(ulX)M(X) ] 构 造 的 一 个 条 件 矩 检验 ,其 中 M(， ) 
是 一 个 非 负 加 权 函 数 。 采 用 这 个 统计 量 , 是 因为 根据 迭代 期 望 法 则 ,可 以 观察 到 有 / 
=E|[E(ulX)] M(X) | >0 成 立 , 当 且 仅 当 H; 为 真 时 等 号 成 立 。 因 此 ,1 可 以 作为 
一 致 地 检验 H: 的 一 个 合适 的 候选 。 常 用 的 加 权 函 数 有 :(i) M(x) =f(x) (f(， ) 是 
X 的 概率 密度 函数 ) (ü) M(x) =1。 选 择 M(x) =f(x) 是 为 了 避免 一 个 随机 
的 分 母 问题 ,这 简化 了 一 致 性 分 析 。 因 此 ,为 了 简化 理论 分 析 , 我 们 主要 关注 情 
JE Ci) ,并 使 用 M(x) =f(x). 

WE MC = ) =f/( )E[uE(ulX)/(X)] 的 样本 表达 式 由 n>》 u,E(u, | X.)/(X,) 


给 出 。 把 uw, 和 E(wu1X,)/(X,) 用 其 一 致 估计 量 分 别 取 代 , 可 以 得 到 一 个 可 行 统 
计量 。 这 样 得 到 的 检验 统计 量 与 基于 E1[E(ulx) ]: A(X) | 的 样本 表达 式 相 比 


有 一 个 更 简单 的 形式 ,因为 后 者 的 样本 表达 式 是 n' X [E(u 1 X) TAX) 。 
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当 以 非 参 数 核 估 计量 取代 条 件 均值 函数 时 ,这 个 检验 统计 量 将 包含 三 个 加 总 ， 
而 前 者 只 包含 两 个 加 总 。 前 一 个 检验 统计 也 比 基 于 参数 和 非 参 数 估 计 值 之 间 
的 积分 平方 差 的 检验 要 简单 ( 详 见 12.1.2 节 )。 


12.1.1 正确 参数 函数 形式 的 一 致 性 检验 


为 了 检验 一 个 参数 回归 模型 的 正确 性 , 原 假定 为 
Ho:E(YI x) 三 g(x) = m(%x,Yo), 所 有 x 和 菜 些 y, e BC R” (12.5) 
其 中 m(x,Y) 是 一 个 已 知 的 函数 ,y 是 一 个 未 知 参 数 ( 明 显 地 作为 一 种 特例 包含 
在 一 个 线性 回归 模型 中 ) 的 p x1 RA, BER’ 的 一 个 紧 致 子 集 。 备 择 假 定 是 
Hi 的 反面 情形 ,例如 对 于 在 一 个 正 测度 集 ( 关 于 x*) 上 所 有 的 yeB,H':E(Ylx) 
三 g(x) 关 m(x,y)。 如 果 我 们 定义 u; =Y;-m(X;,yYo) ,那么 对 于 所 有 的 *, 原 假 
定 可 以 等 价 地 写成 
E(u l| X. = x) = 0 (12.6) 
我 们 可 以 构建 一 个 基于 式 (12.6) 的 非 参数 核 估计 的 一 致 的 模型 设 定 检验 。 
利用 式 (12.6) 和 在 本 章 开 篇 的 讨论 ,可 以 建立 一 个 基于 EluE(u,1X,) 
/(X,) | 的 一 致 性 检验 的 统计 量 , 其 中 f(x) 是 的 联合 密度 函数 。 这 里 简单 地 应 
用 密度 加 权 是 为 了 避免 随机 分 母 会 出 现在 核 估 计量 中 。 


Elu Eu XOSA) ] 的 样本 表达 式 由 公式 n Y wuE(u 1 XAA) 给 出 。 


一 个 从 参数 原 模型 中 得 到 的 残 差 ,7, 是 一 个 基于 原 模型 的 Yn 一 致 性 估计 量 ( 即 


y 的 非 线性 最 小 二 乘 估计 量 ) 。 我 们 通过 去 一 核 估 计量 (n - 1) u K, ; 来 


估计 E(u XZ) ,其 中 Ks = [] ATEC, - X.) 70.) BRINGE X, 是 一 


个 连续 的 4 维 变量 。 我 们 将 会 在 12.1.2 节 中 讨论 XX; 是 一 个 混合 了 离散 变量 和 
连续 变量 的 向 量 时 的 情形 。 我 们 的 检验 统计 量 是 基于 下 式 


at 1 < 
me > š ¿[TY uz w} = Teoh g, Gü K, (12.7) 


条 件 12.1 

(i) f(x) ,g(x) =E(YIx),o (x) =E(wuilx) 和 jw(x) =E(us1x) 都 是 有 界 
的 连续 函数 。m(*,y) 对 于 x 是 连续 的 且 关 于 y 二 阶 可 微 ,由 于 函数 具有 有 限 
的 二 阶 矩 ,因此 m( - ) 和 其 导 函 数 都 是 有 界 的 。 

Cii) k(，) 是 一 个 有 界 的 二 阶 核 , 当 n 一 w% 时 ,h, 一 0(s=1,…,g) 且 


nh h — ç 
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I, 的 渐 近 分 布 由 下 述 定理 给 出 。 
定理 12.1 假定 条 件 12. 1 R r ,那么 在 H; F, 


r“ (hh P/F 5 N(0,1) 


人 > > ü, G Ki Jë o, =2K EC (X)ACX) ) ky — i—i it 


其 中 5。 = L4 
量 。 

定理 12.1 的 证 明 在 12.6 节 中 给 出 。 下 一 个 定理 证 明 7 是 一 个 一 致 检验 。 

定理 12.2 假定 条 件 12. 1 成 立 。 如 果 H 不成立, 对 于 任何 的 正 的 常数 
C >0, 我 们 有 

P(T? > C)— 1,31 n — œ 

定理 12.2 的 证 明 在 12.6.2 节 当 中 概述 。7 ,统计 量 由 Li(1994) 和 Zheng 
(1996 ) 独 立地 提出 ,Fan 和 Li(1996) 中 也 使 用 了 它 的 一 个 版 本 。 

注意 因为 7* 是 单 边 检 验 , 实 际 上 如 果 T >Z., W H; EREKE a 被 拒绝 ， 
其 中 Z, 是 标准 正 态 变量 的 上 a 分 位 点 。 例 如 ,如 果 7”>1.645, 则 在 5% 的 显 
著 水 平 上 拒绝 Hio 

定理 12.1 和 定理 12.2 Xt h, 的 允许 范围 仅 有 最 低 限 度 的 要 求 。 所 以 卫 允 
许 平滑 参数 值 有 一 个 较 宽 的 范围 。 例 如 , 它 允 许 使 用 最 小 二 乘 交 错 鉴 定 法 、 插 
入 法 和 一 些 特别 的 方法 来 选择 h,。 用 前 面 提 到 的 任何 一 种 方法 来 代替 未 知 的 
最 优 非 随机 平滑 参数 时 ,定理 12.1 和 定理 12.2 仍旧 是 有 效 的 ,只 要 它们 能 够 
使 h, 一 0 且 当 n 一 % 时 ,nhi…h 一 %。 

在 原 假 定 H; F, 可 以 证 明 n(h…h,)“ ZL 以 一 个 缓慢 的 速度 
O,((h,…h,)'”) 收 敛 于 零 均 值 的 正 态 随机 变量 ( 见 12.6.1 节 的 式 (12.41) ) 。 
如 果 我 们 考虑 g=1 fl h— n ' (fE q = 1 的 情形 下 非 参 数 估计 的 最 优 速度 ) 的 
情形 , 则 OCh?) = O (n `!) 以 一 个 极 慢 的 速度 收敛 于 零 。 在 Li 和 Wang 
(1998 ) 的 模拟 研究 中 确实 表明 T. 检验 以 一 个 非常 慢 的 速度 收敛 于 一 个 正 态 变 
量 。 即 使 样本 容量 n = 1 000, 该 检验 仍 显著 地 容量 不 足 (undersized ) 。 尽 管 如 
此 ,他 们 证 明 它 是 一 个 原始 自 举 程序 (Liu(1988)), 可 以 用 来 大 大 改进 厂 检验 
在 有 限 样 本 中 的 表现 (关于 原始 自 举 法 工作 的 更 深 见解 见 问题 12.2). 

计算 原始 自 举 统计 量 包括 的 步骤 如 下 所 示 : 

(i) 对 于 i=1,…,n, 产 生 一 个 两 点 原始 自 举 误差 :以 概率 r= (1 +V5)/(2V5) 有 
u; =[(1 -Vy5)/2]z, 以 概率 1-r 有 wu =[ (1 +V5)/2]i,。 

(ii) 48) Y° =m(X,,y) +i; (i=1,…,n)。 产 生 的 样本 |1X,,Y* | ,被 称 
为 自 举 样本 。 然 后 得 到 自 举 残 差 &” =Y; -m(X;,y" )(i=1,…,n) ,其 中 yxy 是 
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关于 自 举 样本 y 的 非 线性 最 小 二 乘 估计 量 。 
(说) 利用 自 举 残 差 来 计算 检验 统计 量 T° =n (h ooh.) PE Ael ,其 中 
r 和 6 与 1 和 6? 是 相同 的 ,除了 用 KER io 
(iv) 重复 步骤 (i) 到 (省) 较 多 次 ,比如 B=399 次 ,然后 构建 B 自 举 检验 统 
计量 | T° | ,的 经 验 分 布 。 这 个 自 举 经 验 分 布 用 来 近似 检验 统计 量 T :的 原 分 
布 。 如 果 T? > 7 , 则 拒绝 Ho HEP T'ITU |P HJ E a 分 位 点 。 
直观 地 ,以 上 步骤 ( 主 ) 和 (十) 确保 了 条 件 于 随机 样本 |X,,Y,1"_,, 自 举 样 本 
是 通过 原 模型 产生 的 ,因为 条 件 于 1X,,Y,1'., ,wu” 具 有 零 均值 并 且 在 步骤 ( 语 ) 
得 到 的 自 举 统计 量 逼 近 检 验 统计 量 7 的 原 分 布 ,无 论 原 假定 成 立 与 否 。 
接 下 来 的 定理 证 实 了 这 种 直觉 并 且 证 明了 原始 自 举 法 的 工作 。 
定理 12.3 在 与 定理 12. 1 相同 的 条 件 下 ,除了 我 们 没有 施加 原 假定 
H , W| 
supl P(T; < z] |X,,Y,];. i) - @(z)) ! = o,(1) (12.8) 
其 中 @( - ) 是 一 个 标准 正 态 随机 变量 的 累积 分 布 函 数 。 
定理 12.3 表明 自 举 统计 量 TE 依 概 率 依 分 布 收敛 于 一 个 N(0,1) 随 机 变 
量 。 见 Li, Hsiao 和 Zinn(2003) ,在 文中 给 出 另 一 种 关于 “ 依 概 率 依 分 布 收敛 ” 
的 公式 。 
注意 @6(z) ,一 个 服从 N(0,1) 的 随机 变量 的 累积 分 布 函 数 ,是 一 个 连续 函 
数 。 利 用 Polya 定理 ( 见 Bhattacharya 和 Rao(1986)), 我 们 知道 为 了 证 明 式 
(12.8) ,对 于 任意 的 ze R 的 固定 值 ,足以 证 明 
I P(T! < zl {X Y; } a - @(z) | = o,(1) (12.9) 
式 (12.9) 的 证 明 与 定理 12.1 的 证 明 相 类 似 ,除了 其 需要 使 用 一 个 不 同 的 
中 心 极限 定理 ,因为 条 件 于 数据 ,7* 的 首 项 是 一 个 依赖 于 i 和 j 的 带 有 核 函数 
的 U 统 计量 (是 U 统 计量 核 函数 而 不 是 非 参 数 核 函 数 k(， ) ) 。 在 这 种 情形 下 ， 
我 们 可 以 使 用 de Jong(1987) 对 二 次 型 的 中 心 极限 定理 来 证 明定 理 12.3。 如 果 
想 知道 关于 这 个 议题 的 更 详细 的 讨论 ,可 以 参见 Fan, Li 和 Min(2006) 以 及 
Hsiao 等 (2007 ) 。 
在 Li 和 Wang(1998) 中 所 报告 的 模拟 表明 T°" 检验 在 实际 中 表现 良好 ,并 且 
在 合适 的 样本 容量 中 (例如 ,n = 100) ,其 经 验 水 平 与 其 名 义 水 平 没 有 多 大 差异 。 
Li 和 Wang 进一步 说 明 ,在 了 肋 下 ,17 -Ti =O, (n 2 (hh) 2), MAR 
举 方法 相 比 渐 近 正 态 和 逼近 的 确 提供 了 一 个 对 原 分 布 更 好 的 近似 。 再 考虑 当 4 = 
1,h = 0(n 5) 的 情况 , 自 举 法 误差 率 近 似 值 为 0,(n '2h'2) = 0,(n 35) , 远 远 
小 于 渐 近 正 态 率 误 差 近似 值 0 (h'?) -一 Dm Fan 和 Linton ( 2003 ) 给 出 
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了 自 举 法 统计 量 7。 精确 度 的 进一步 分 析 。 
我 们 现在 简要 讨论 加 权 函 数 M(x) =1 的 选择 。 在 这 种 情况 下 检验 统计 量 
被 修正 如 下 : 


1 n n ns: Z 
hn = ZD > ë: 6 š K, ZP. CX,) (12.10) 





uB. (XO = (n - 1) Ki 是 1X) 的 去 一 核 估计 量 。 定 理 12.1 被 修正 为 
定理 12.4 在 与 定理 12.1 中 给 出 的 类 似 的 条 件 下 ,进一步 假定 有 一 个 


有 界 的 支撑 集 , 并 且 扎 ，) 是 有 下 界 的 ,为 蕊 的 支撑 集中 的 一 个 正常 数 。 那 么 在 
EH, F, 


m E n (hh, ) PE Z ó r S N(0, 1) 


RP din = Sh ° ie > > au Ki f. (X)? J oin =2x'E[o*(X)/A(X)] 的 


一 致 估计 量 。 

定理 12.4 要 求 奈 有 有 界 的 支撑 集 , 并 且 帮 ，) 是 有 下 界 的 ,和 否则 渐 近 方差 
E[o (XX)/A(X)] 可 能 不 是 有 限 的 。 或 者 ,我 们 可 以 采用 一 个 固定 的 修剪 集 来 修 
剪 掉 X, 的 较 大 值 ,这 样 我 们 就 只 从 一 个 有 界 集 里 使 用 数据 。 修 改 自 举 法 过 程 
使 得 7， ,检验 变 得 简便 。 产 生 ul 、Y MA PRG) GRRE, HE 
步骤 (证 ) 和 (iv) 中 ,以 与 7 了.。( 不 是 7*) 相 同 的 方法 计算 自 举 法 统计 量 7。 , 除 
TAù WAR ùo 

或 者 ,我 们 可 以 基于 一 个 残 差 平方 和 的 差 , 即 Ullah (1985 ) 提出 的 SSR, — 
SSR, 来 检验 参数 回归 函数 形式 的 正确 性 。 其 中 SSRw = n> ui, ú, = Y,- 


z. (X. ë. (X) E(Y ZX.) 的 去 一 核 估计 值 , SSR = n" Y ë „â, = Y, - 
m(X,,#) Dette(1999) 对 单 变量 大 的 情形 推导 出 了 一 个 基于 残 差 平方 检验 的 


渐 近 原 分 布 ,而 Fan 和 Huang(2001) 以 及 Fan 和 Li(2002) 考 虑 了 一 般 多 元 变量 


蕊 的 情形 下 基于 残 差 平 方 的 检验 。Fan 和 Li(2002) WE, H, F, 
F m = n(h )22[SSR ~ SSR, +ë J/ósa “+ N(0,1) (12.11) 


其 中 , 当 g<3 时 ,6, =ë, ; 4 q>4 Bh ,ë, =ë, +6,,， 
p 》 [m(x,,y) - m(x,,y) K a/f a ( X,)° 
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x. m 4 £ 四 à á z ë 


ey % Wi (Kpy - 2K, )2/f_, (X,)° 


n(n = 1) izl ji 
f(X) z — > K, .; 
其 中 , K, ,= 站 AKC - X.) /h,) ,K, , = [I h'k((X, - X,)/h) ,kv) = 


fka +v)k(u)du 。 


注意 当 g =1 时 , 式 (12.11) 退 化 为 Dette(1999) 的 定理 2.3 中 给 出 的 结果 ， 
除了 式 (12.11) 只 有 一 个 中 心 项 ev, 因为 式 (12. 11) 使 用 了 去 一 核 估计 量 , 与 
Dette 没有 采用 去 一 估计 量 相 比 , 它 移 走 了 一 个 中 心 项 。 

Fan 和 Li(2002 ) 推 荐 使 用 自 举 法 来 更 好 地 近似 得 到 7, ssn 检验 的 零 分 布 。 
Dùl =Y) -m(X,,y` ) 为 上 面 讨论 的 自 举 法 残 差 ,定义 去 ” =Y; -Y; , 其 中 六 = 
Y Y'K, Š K, 。 那 么 自 举 法 统计 量 为 Tssn =n (hi:h.)'?[SSR; -SSR; + 


ce; ]/oss EP SSR; SSR 6，” 和 ossn 是 在 SSR, .SSR, é, 和 assg 中 分 别 以 ul A 
u” 取 代 u, 和 得 到 。 

关于 自 举 法 理论 的 创造 性 工作 见 Efron(1982) 和 Hall(1992); 关 于 合适 的 
自 举 重复 次 数 的 相关 工作 可 参见 Davidson 和 MacKinnon ( 2000 ) , Andrews 和 
Buchinsky(2002 ) 。 


12.1.2 混合 数据 


在 这 一 节 我 们 考虑 下 = (X',X") 的 情况 ,其 中 XX 是 一 个 g 维 连续 变量 ,X" 
是 一 个 + 维 离散 变量 。 如 果 样 本 大 小 远 远 大 于 离散 元 的 数量 ,而 维度 q 很 小 , 则 
可 以 使 用 第 3 章 介绍 的 频率 法 来 处 理 离散 变量 的 存在 。 在 这 种 情形 下 ,检验 统 
计量 保持 不 变 ,除了 核 函 数 K, ,需要 以 K. (X: X) 1( XI = X.) RER, JÉ ih 


1(X; = X) = [| 1(X; = X.) 。 当 和 = 石 时 ,该 式 等 于 1, 否 则 等 于 0。 经 过 
这 些 修改 ,定理 12.1 和 定理 12.2 的 结果 仍旧 有 效 。 
我 们 也 可 以 如 第 4 章 所 介绍 的 那样 对 离散 变量 进行 平滑 。 那 么 检验 统计 量 


D EEVA K, =K, (Xi, XLX, ,XX ARAR K, ;来 加 以 修正 ,其 中 LL(X?,X ,A) = 
[| LX ,XX ,A,) 在 第 4 章 中 已 定义 ,y = (h,A)。 可 以 通过 (局 部 常数 ) 最 小 二 


乘 交 错 鉴定 方法 或 者 特定 的 方法 来 选择 平滑 参数 (hh,…,h, ,A,,…, 和 A,)。 令 
(hh, 和) 表示 得 到 的 检验 统计 量 , 则 定理 12.1 和 定理 12.2 仍旧 有 效 。 例 如 ,在 
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1 = Cal w = iy aa < i 


H, 的 条 件 下 ,定理 12.1 变 成 
T' =n (É h JECKA) /GS N(0,1) 


其 中 
def l ER š. é d yë Š 
= — uu K;(X X: )L(X i X; ,A 
"PTS p 282 K ( ;)L( ) 
H. 
2... _ `“ š 
0 = —— >` GK; (XI X: LXX ,A) 





n(n- 1) i=l Ji 

Hsiao 等 (2007 ) 报告 的 模拟 表明 "原始 自 举 法 "得 到 了 一 个 正确 水 平 的 检 
验 。 此 外 ,交错 鉴定 方法 对 于 缓慢 变化 的 函数 (低频 率 蔡 换 ) 倾 向 于 选择 较 大 的 
h, 值 ,而 对 迅速 变化 的 函数 (高 频率 替换 ) 则 倾向 于 选择 相对 较 小 的 值 。 因 此 ， 
基于 交错 鉴定 方法 的 了 ,检验 比 基 于 特定 的 窗 宽 选择 规则 的 了 ,检验 , 如 
h, = 和 on 和 A,=0 具 有 更 好 的 检验 功效 。 

除了 这 一 节 讨 论 的 检验 之 外 ,在 文献 中 已 经 提出 了 很 多 可 供 选 择 的 非 参 数 
检验 用 以 检验 参数 回归 函数 形式 的 正确 性 。 例 如 ,可 以 参见 Azzalini, Bowman 
和 Härdle ( 1989), Wooldridge ( 1992 ) , Yatchew ( 1992 ) ，Eubank 和 Spiegelman 
(1990), Hirdle 和 Mammen ( 1993 ) Eubank 和 Hart( 1992 ) , Ait-Sahalia , Bickel 
和 Stoker(2001 ) , Ellison 和 Ellison (2000 ) ,Liu ,Stengos 和 Li(2000) ， 以 及 Sten- 
gos 和 Sun(2001 ) Tripathi 和 Kitamura ( 2003 ) Chen, Härdle 和 Li(2003 ) , 以 
及 Chen 和 Gao(2007) 考 虑 了 经 验 似 然 拟 合 优 度 检验 。Hart( 1997) 对 基于 非 参 
数 估计 技术 来 检验 参数 回归 函数 形式 的 正确 性 提供 了 一 个 一 般 的 处 理 。 
Horowitz( 2006 ) 构造 了 一 个 检验 参数 回归 函数 形式 正确 性 的 一 致 检验 ,针对 在 
一 个 工具 变量 回归 模型 框架 中 的 一 般 的 非 参 数 备 择 模 型 。 我 们 将 在 第 17 章 讨 
论 非 参数 工具 变量 的 估计 。 


12.2 概率 密度 图 数 等 价 的 检验 


在 这 一 节 我 们 考虑 两 个 随机 样本 是 否 从 同一 分 布 抽取 的 检验 问题 。 假 定 
我 们 有 两 个 独立 同 分 布 数据 集 1X,} ,和 |Y,} 2 ,每 一 个 都 取 自 gq 维 连续 随机 向 
量 。 假 定 X 有 概率 密度 函数 /(， ) ,Y 有 概率 密度 函数 g( - ) ,我 们 要 检验 的 原 
假定 为 

:f(x) =g(x) ,几乎 所 有 x 

我 们 构造 一 个 检验 统计 量 ,基于 所 . ) 与 a(* ) 间 的 积分 平方 差 ,表达 式 由 

下 式 给 出 
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P =f [f(x) - g(x) ]’dx 
= | [f°(x) +g (z) -2f(x) g(x) ]da 
= [f(x)dF(x) + [| gG) aG(a) -2 | zs)dc(z) 
EP FCRC ) 分 别 是 和 Y 的 累积 分 布 函数 。 一 个 可 行 检验 统计 量 可 
以 通过 以 fA(…) .8&8(，)、F,(，) 和 6G,(， ) 分 别 取 代 f(.)、g(')、F(，.) 和 
G( ` ) 得 到 ,其 中 f(x) = ni > K(Xi,x) ,B(x) = n;' 2" K,(Y,,z) ,F,(* ) 和 
G,(， ) 分 别 为 {Xj 和 |Y,1 写 ,的 经 验 累积 分 布 函 数 。 注 意 采用 Dirac 的 6 B 
数 方 法 (参见 附录 A. 40 的 定义 ) ,对 于 任意 (可 测度 的 ) 函数 M(， ) ,有 
[MO)aF,(z) = m > MOK) 和 | M(a)dG,(z) = n;' > M(Y,) 。 因 此 ,我 
们 得 到 一 个 可 行 估 计量 : 
r= [f(x)dF.(x) + [8(x)d6.(x) -2 [f(x)dG.(x) 
1 waa ¿Ñ 3 2 局 
= EI > Ks +— > 2, m, > 


2 
R, izi j=l Nn, i=1 j= 





m 
Y K) 
2 


其 中 


R= lI h;'k( (X, - X.) /h,) 
KL, = |] PRO, = Y.) h.) 


Ki = |] hik( CX, - Y,)/h,) 


为 了 推导 的 渐 近 分 布 ,需要 下 面 的 条 件 。 
条 件 12.2 

(i) /( -Mg WEARER AN. 

(ü) k( - EAR AER ZAKR 

EW 12.5 当 条 件 12.2 成 立 , 在 H, F, RIE 


1⁄2 (到 g: Cab) d 


TEŽ (n,n,h,.h,) > N(0,1) (12. 12) 


q 0, 


其 中 


ETONE 
nd Shieh, n, +=] 
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| 
定理 12.5 的 证 明 在 12.6.3 节 中 给 出 。 注 意 在 定理 12.5 中 给 出 的 o* 与 Li 
(1996) 给 出 的 不 同 。 习 题 12.4 证 明 cy 渐 近 等 价 于 Li 给 出 的 方差 估计 值 。 
可 以 证 明 到 确实 是 一 个 一 致 性 检验 , 当 H, 不 成 立时 , 它 在 各 方向 都 具有 检 
验 功效 。 也 就 是 说 ,如 果 H, 不 成 立 , 则 
P(T! > C) 一 1 ,任意 正常 数 C (12.13) 
7, 是 单 侧 检验 ,因此 在 实践 中 如 果 Ti > 2。, 则 在 置信 水 平 上 拒绝 H, Z, 
是 标准 正 态 变 量 的 上 a 分 位 点 。 
注意 到 到 检验 有 一 个 非 零 中 心 项 cv,, 为 了 得 到 一 个 渐 近 零 均值 检验 (在 
大 下 ) 必 须 将 它 减 掉 。 在 定理 12.5 的 证 明 中 我 们 知道 中 心 项 来 自居 dh i=j 
的 出 现 。Li(1996 ) 也 考虑 了 一 个 中 心 值 不 受 限制 的 检验 统计 量 ,这 个 检验 统计 
量 是 通过 移 除 屎 中 的 i=j 项 得 到 。 定 义 
- [hy Xs hy Xun, - 


ni i=l j#i,j 


通过 对 定理 12.5 的 证 明 ,我 们 立即 得 到 下 述 推论 : 
推论 12.1 在 与 定理 12.5 给 出 的 相同 条 件 下 ,我 们 有 


b def 


Bri E (n wh ye po N00,1) (12.15) 
Li(1996) 报 告 的 模拟 证 明了 中 心 值 不 受 限 制 的 T RRE 7, 检验 具有 稍微 
好 一 点 的 有 限 样本 性 质 和 功效 ;但 是 ,中 心 值 不 受 限 制 的 T;, 检 验 存在 一 个 问 
题 。 在 有 限 样本 里 ,这 个 统计 量 的 值 依赖 于 X,; 和 YY(i=1,…,n,;j=1,*…,n,) 
的 排列 次 序 。 要 看 到 这 一 点 需要 关注 
mini fia sna] 
9 


尽管 天 不 随 着 数据 的 排列 次 序 而 改变 ,但 式 (12.16 ) 的 第 三 项 


min | ny ,na| 











2 ç Y x: | (12.14) 


n n, £ 1 jw i, 





2 (n,m) > K” 


依赖 于 数据 是 如 何 排序 的 。 这 意味 着 " 必定 依赖 于 数据 的 排列 次 序 。 式 
(12.16) 的 最 后 一 项 是 渐 近 可 以 被 忽略 的 ,因此 不 同 的 排列 次 序 并 不 影响 71, 的 
渐 近 分 布 ,但 在 有 限 样本 应 用 中 可 能 会 影响 ,检验 过 程 的 结果 。 

因为 横 截 面 数据 集 没 有 自然 排序 ,而且 随 机 地 对 数据 进行 重新 排序 可 能 得 
到 不 同 的 检验 结果 ,在 实践 中 当 使 用 Ti, 检 验 时 需要 小 心 。 相 反 ,7' 检 验 并 不 随 
着 数据 排列 次 序 的 不 同 而 改变 。 
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a = w st 2 È Ee t a 


式 (12.12) 中 的 检验 与 Mammen(1996 ) 提出 的 检验 基本 上 是 相同 的 ,除了 
Mammen 的 检验 要 求 计 算 核 图 数 的 双重 卷 积 和 四 重 卷 积 。Anderson Hall 和 Tit- 
terington ( 1994 ) 也 提出 了 一 个 类 似 7, 的 检验 ,但 有 一 个 固定 平滑 参数 ( 非 平滑 
检验 ) ,这 使 得 他 们 的 检验 统计 量 为 一 个 非 标 准 分 布 。 他 们 建议 使 用 自 举 法 来 
近似 他 们 检验 统计 量 的 零 分 布 。 我 们 将 在 第 13 章 讨论 非 平滑 检验 。 

Mammen ( 1992 ) 建议 使 用 自 举 法 来 更 好 地 近似 检验 统计 量 的 零 分 布 。 这 项 
工作 由 从 混合 数据 中 有 放 回 随机 抽样 实现 。 令 Z, 表示 对 混合 数据 的 第 i 个 样 
本 实现 ,从 |2Z,1%1“* 中 有 放 回 随机 抽取 个 观测 值 , 称 该 样本 为 |X* |. RA 
从 12;2 2 有 放 回 随机 抽取 n, 个 观测 值 , 称 其 为 1Y* 1 。 除 了 分 别 用 XX， 和 
Y? PRX, #l Y, 外 ,用 与 7, 相同 的 方法 计算 检验 统计 量 7'" 。 这 个 步骤 需要 重 
复 很 多 次 ,比如 B =399 次 ,得 到 的 自 举 统计 量 17。 | , 称 为 检验 统计 量 的 自 举 
样本 。 如 果 T> Tiam , 则 拒绝 原 假定 如 ,这 里 Ti, ETY 7 的 上 a 分 位 
点 。 比 如 ,在 a=5% 的 显著 性 水 平和 B=399 次 时 ,将 399 个 自 举 统计 量 从 小 到 
大 排列 ,7 了 Oy Sç sss <T n(399) » , 则 T. n(1-(a(B+1)) aTi n(380) 9 或 者 可 以 计算 由 
m/B 给 出 的 自 举 P 值 ,这 里 普 是 自 举 统计 量 (7。 ) 超 过 原始 统计 量 7 的 数目 。 

对 于 两 个 概率 密度 函数 是 否 相 同 的 其 他 相关 检验 包括 Fan 和 Gencay 
(1993)。 对 于 检验 单 变量 密度 是 否 相 等 的 相关 测度 炉 检 验 参 见 Robinson 
(1991),Maasoumi 和 Racine(2002), 以 及 Granger,Maasouni 和 Racine(2004)。 


12.3 ”关于 回归 函数 更 多 的 检验 


12.3.1 参数 回归 模型 的 Hirdle 和 Mammen 检验 


Härdle 和 Mammen(1993) 提 出 了 一 个 参数 回归 函数 形式 的 一 致 性 检验 , 基 
于 模拟 的 样本 Jw: 
la = [B(x) - m(z,y)] w(a)dx 
其 中 ww(z) 是 一 个 加 权 函 数 。 
如 果 选择 w(x) =f (x) , 且 用 f(x) = n" Y KOX x) RESC) , 则 以 上 统 
计量 变 为 


a LX > [Y, - m(X,,y) ][ Y, - m(X,,y) ] 


j=l 


x [Ki (Xisx) K, (X, ,x)dx 
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G ü K,(X,,X ) (12.17) 


Hp a, = Y, - m(X,,y),K,(X,,X,) = I] h, 'k(X, - X.)/h,) , H k(v) = 


n 
1 
2 
n J=l 


| (wk (v +v)du 是 来 自 k 的 双重 卷 积 核 。 


XH P A I a ,我 们 发 现 二 者 唯一 的 区 别 在 于 后 者 包括 双重 求 和 中 的 i=j 
项 ,并 且 天 由 天 代替 。 因 此 ,由 定理 12.1 的 结果 ,我 们 可 以 立即 得 出 以 下 推论 。 
定理 12.6 在 与 定理 12.1 相同 的 条 件 下 ,在 矶 下 ， 


a Chh) CE a = ea) N OA) 


k (0)° - a2 ~2 2h, h, a- n2 2 Z 2 

HP cna z nh, A u, Ho, = yh Ži uu K, (X,,X;,) 
证 明 : 注 意 L gw -c, 8 P BR T fE I 中 的 核 K 被 卷 积 核 K 替代 。K 也 是 
一 个 二 阶 核 。 因 此 ,定理 12.6 由 定理 12.1 得 出 。 D] 


WMR I, sw 中 选择 w(x) =f(x) ,并且 用 样本 均值 替代 总 体 均 值 ,将 给 出 
Härdle 和 Mammen(1993 ) 检 验 的 男 一 形式 ， 


i =m [8(X;) - m, ( X, ,y) l? (12.18) 


关于 非 参 数 检验 的 早期 文献 依赖 经 验 法 则 的 窗 宽 选择 方法 来 建造 一 致 模 
型 设 定 检验 (参见 Hirdle 和 Mammen(1993 ) ,Zheng(1996) ,Li 和 Ming(1998) ) 。 
遗憾 的 是 ,这 种 选择 平滑 参数 的 专门 方法 被 证 实 会 导致 功效 损失 ,由 此 带 来 更 
多 近期 发 展 ,参见 Hsiao 等 (2007) ,他 建议 用 数据 驱动 的 交错 鉴定 方法 来 挑选 
平滑 参数 ,Horowitz 和 Spokoiny(2001 ) 提出 基于 式 (12.18) 的 自 适 应 最 优 速率 检 
验 ,这 正 是 下 一 节 的 主题 。 


12.3.2 自 适应 最 优 速率 检验 


平滑 参数 选择 是 非 参数 核 分 析 的 一 个 关键 组 成 部 分 ,在 构造 非 参 数 模型 设 
定 检验 时 它 也 极其 重要 。 对 于 非 参 数 核 检验 ,实证 大 小 和 功效 都 对 窗 宽 值 很 敏 
感 。 当 使 用 自 举 法 时 , 非 参数 检验 的 实证 大 小 通常 对 平滑 参数 中 一 些 变化 并 不 
十 分 敏感 。 然 而 ,实证 功效 对 这 些 变化 是 敏感 的 。 因 此 ,一 个 关键 的 问题 为 如 
何 选择 最 佳 的 平滑 参数 使 得 最 终 的 检验 对 于 原 模型 中 所 有 偏离 都 有 强大 的 功 
效 。 直 觉 上 ,人 们 可 以 认同 对 于 低频 率 的 数据 应 该 用 相对 较 大 的 窗 宽 来 精确 估 
计 对 原 模 型 的 偏离 。 然 而 ,对 于 高 频率 数据 ,大 的 窗 宽 值 会 过 度 平滑 数据 并 使 
原 模型 中 的 离 差 变 得 模糊 。 因 此 ,对 高 频率 数据 必须 选择 一 个 相对 较 小 的 窗 宽 
值 (更 多 讨论 详 见 Fan 和 Li(2000) ) 。 
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Horowitz 和 Spokoiny(2001 ) 提 出 了 一 个 具有 对 低频 和 高 频数 据 都 拥有 高 功 
效 优势 的 自 适 应 检验 统计 量 。 他 们 考虑 了 一 个 在 式 (12.18) 中 给 出 的 基于 一 个 
学 生化 (studentized ) 版 本 I, sw 的 检验 。 在 站 ;为 非 随 机 的 假定 下 ,很 容易 得 到 : 


N, ZEC m) = > asao" (X) 
i=l 


V. = valim) = 25 5 ao (X,)o (X,) 


JEH aya = X was ,wy = KCCX, -X,)/h)/ Y K( (X, - X,)/h) 。 因 此 ,一 个 
I=1 I=1 
学 生化 检验 由 下 式 给 出 : 


fi = 7; 
且 一 个 可 行 性 检验 为 

a iss N, 

T, = V. 


其 中 Ñ, F 站 a, G° (X) ,H 


Ú = 2 > E dat o (3) 
G (x) EERE H; H, FJ o’ (x) 一 致 估计 量 (参见 Horowitz 和 Spokoiny 构 
造 zc"(x) 的 详细 讨论 ) 。 

为 了 得 到 自 适 应 检验 ,Horowitz 和 Spokoiny (2001 ) 提出 了 使 用 几 个 不 同 的 
平滑 参数 值 he H, = {huha ,| 的 方法 ,m 是 有 限 数 值 。H, 的 一 个 例子 
为 H, = |h, =h, að h, Sh, u. ,s=1,-:,q;k=0,1,2,-- | ,其 中 0 <h, mia <h, ma 
且 0<a<1。 继而 检验 统计 量 选取 所 有 值 中 的 最 大 值 , 即 

T = max T, (12.19) 


Horowitz 和 Spokoiny (2001 ) 建议 使 用 自 举 法 来 近似 得 到 检验 统计 量 7 的 临 
界 值 。 自 举 法 步骤 为 : 

(i) ÆR Y; =m(X,,y) + ,i=1,…,n, 其 中 由 和 N(0,0 (XX,)) 随 机 
抽取 。 

(ii) 运用 自 举 样 本 X,Y 1 7, 估计 yy 和 co”(X,) ,得 到 的 相应 估计 量 记 为 
PAE (XX,)。 用 在 式 (12.19) 中 定义 7 了 的 相同 方法 计算 7° ,但 以 Y* y #l 
G° (XAKER Y... A o? (XX,)。 

(iü) $ t, 表示 显著 性 水 平 为 a 检验 的 渐 近 零 临 界 值 。 用 重复 步骤 (i) 和 
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S s 8 = Ë 5 as 帘 8 


(ii) 多 次 得 到 的 7' 经验 分 布 的 1 - a 分 位 数 估计 tao 
Horowita 和 Spokoiny (2001 ) 证 明了 以 下 结论 : 
定理 12.7 在 Horowita 和 Spokoiny(2001) 给 出 的 正则 性 条 件 下 , 令 假 定 Hç 
为 真 , 则 
limP (T'> i) =a 
Horowita 和 Spokoiny(2001) 中 的 模拟 证 明 他 们 的 检验 比 7 了 ,检验 具有 更 好 
的 功效 ,尤其 在 高 频率 数据 方面 。 


12.3.3 参数 单 指数 模型 检验 


第 8 章 中 介绍 的 参数 单 指数 模型 具有 以 下 形式 : 
Y, = g (XB) +u,E(ul X,) = 0 
Hpg, ) 是 已 知 函数 ,B 是 一 个 未 知 参数 向 量 。 例 如 ,如 果 g (*，)=@®(:…)， 
@ (，) 是 一 个 标准 正 态 变量 的 累积 分 布 陋 数 ,我 们 得 到 流行 的 Probit 模型 。 
因此 原 假 定 是 本 :E (Y,|X,) =g (XIB) RE fte E (u; 1X,) =0, 其 中 心 = 
Y,- g (XB) ER 12. 1. 1 节 的 分 析 , 我 们 可 以 构建 一 个 基于 
E[uE tt 


F pi ù,ù,K,(X,,X,) (12.20) 


“i = L) =l jwij=1 

JEP ù, =Y, -g (XIB) ,8 是 基于 参数 原 模型 的 B, 的 Vn 一 致 估计 量 。 它 可 以 是 
一 个 非 线性 最 小 二 乘 估计 量 ,或 者 在 Probit 或 Logit 模型 情况 下 , 它 可 以 是 B, 的 
最 大 似 然 估计 量 。 

条 件 12.3 

(i) 如 果 g(X) A u WAARA. g) AZK, (v) = 
E(u°'lxB =v) 连 续 。 

Cii) k(，) 是 非 负 的 二 阶 核 函 数 ,并 m 次 可 微 (m 宇 3 是 一 个 整数 ) 。 

(iii) `4 n— ° Rt ,h=>0, nP h Š 

(iv) Œ H F,B-B=0, (n°). 

Fan 和 Liu(1997) 证 明了 下 面 的 结论 。 

定理 12.8 在 条 件 12.3 和 假定 下 ,可 得 到 


nh! E/G? SN (0,1) 
Ht i = y > X BRK (O - X) AB) 


如 同 12.1.1 节 的 情形 ,我 们 也 可 以 用 自 举 法 更 好 地 逼近 的 零 分 布 。 
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使 用 类 似 Hirdle 和 Mammen(1993 ) 的 方法 ,Horowitz 和 Hirdle( 1994 ) 提出 
一 个 方法 检验 相对 半 参 数 的 一 般 参 数 指数 模型 ,该 方法 也 能 用 作 H; 的 一 致 性 
检验 。Hristache 等 (2001 ) 提出 一 个 可 供 选 择 的 针对 单 指数 模型 的 拟 合 优 度 
检验 。 


12.3.4 非 参数 遗漏 变量 检验 


“显著 性 检验 ”可 能 是 应 用 回归 分 析 中 使 用 最 频繁 的 检验 ,而 且 经 常 被 用 作 
证 实 或 推翻 经 济 理论 。 稳 健 的 参数 推断 依赖 于 潜在 数据 生成 过 程 的 正确 函数 
设 定 。 然 而 ,参数 框架 中 错误 设 定 的 可 能 性 不 能 被 忽视 ,尤其 是 考虑 到 应 用 研 
究 人 员 倾 向 于 在 简洁 和 易 处 理 的 基础 上 选择 参数 模型 这 个 事实 。 给 定 非 参 数 
方法 在 比 参数 方法 需要 的 约束 假定 少 很 多 的 情况 下 是 一 致 的 , 非 参 数 核 框架 中 
的 显著 性 检验 因此 具有 明显 的 吸引 力 。 

在 这 一 节 ,我 们 为 应 用 研究 者 概述 一 种 在 一 个 完全 非 参 数 和 稳健 框架 中 的 
检验 假定 的 方法 ,从 而 回应 潜在 的 批评 , 即 一 个 特定 的 结果 是 由 于 任意 的 参数 
设 定 带 来 的 。 

令 XER "为 连续 随机 变量 的 一 个 g xl 维 向量 , 划 分 人 =(W,Z)eR”x 
民 "”“(1<p<g)。 原 假定 为 Y 的 条 件 均值 不 取决 于 Z, 即 

Hs:E(Y| w,z) = E(Y| w) a.e. 

定义 w=Y-E(YIW) , 则 在 Hs 下 有 几乎 处 处 E(wulX) =0, 我 们 可 以 构建 一 
个 基于 Eiuf, (W)E[ufo (多)1X]f(X)| 的 检验 统计 量 , 其 中 ff OOMS) 
分 别 为 WW 入 的 概率 密度 函数 , 令 f, 和 YY 分 别 表示 f.(W) 和 (YI1W,) 的 去 
一 核 估 计量 , 即 

ë l i 
f. = TESIT K, (W,,W,) 
和 


(n - 1) 
K,. (W,,W,) = [I ka |== = 


HP k, o ) 是 单 变量 核 函数 ,h, ,是 与 W, 相 联系 的 平滑 参数 。 一 个 可 行 的 检 
验 统 计量 可 以 给 出 为 : 


i, z ee > (Y, s: Ýa (Y, T Y )/. K, (X,,X,) 





其 中 K(X,X) = || hk ((X, - X.) /h,) 是 用 来 估计 EE (uf (W) 1X)f (X) 
的 核 函 数 。 
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& R = 到 si s g s i 


以 下 条 件 用 于 推导 出 到 的 渐 近 分 布 。 

条 件 12.4 

(i) EX u =Y, -E (Y,IW,) ,&$ p, (x) =E (uilz),f.,f ( ° ),o? 和 As 均 
满足 Lipschitz 条 件 , 即 |m (u +v) -m (u)| < C |>], $ E (Ylx) 28 v 次 可 微 ， 
E(Ylw) 为 一 个 连续 函数 。 

(ü) 令 k,(，) 为 一 个 v 阶 核 , 令 k(，) 为 一 个 非 负 二 阶 核 。 

(iii) "4 n—e@ HF ,h. , —>0(s=1,=,p),h, —>0(s=1,=,q), nh, ith, ,—%, 


p 


p 
nh h >œ , n (hh ) [ > hz, ] —0 B (A, h .)/ (haatho) wta 
1 


条 件 12.4(i) 包含 对 未 知 函 数 的 标准 平滑 性 条 件 。 条 件 12. 4 (ii) 假定 使 
用 一 个 v 阶 的 核 估 计 原 模型 。 这 意味 着 原 模 型 的 均 方 误差 是 


o | > h”, + (haah. ) 阶 的 。 一 致 模型 设 定 检验 通常 包含 一 个 二 阶 退 


化 U 统 计量 ,并 且 这 样 一 个 U 统 计量 的 标准 化 常数 是 (n(h,…h,)'"”)-'。 条 件 
12.4 (iii) 假定 来 自 原 模型 的 均 方 误差 的 阶 比 (n(h…h,)“)” 小 , 即 


nh) nh) ) 50 (1) 。 注 意 如果 p<g/2, 最 后 


一 个 条 件 意味 着 h, 的 阶 比 h, ,小 , 则 意味 着 我 们 对 关于 原 模型 的 备 择 回 归 模 型 
必定 平滑 不 足 (undersmooth ) 。 
定理 12.9 在 条 件 12.4 及 H 假定 下 ,我 们 有 
Ti% (nhh, )2P ó, N (0,1) 
_ 5i S PEE ¿al sss _ P 
其 中 ws。 = š 2 站 f= ,而 其 中 


n 





K, (X,,X,) = I] hr'k ((X, - X,)/h,) o 


可 以 证 明 如 果 Ho 不 成 立 , 则 n 一 wm 时 ,P (Ts>C) 一 1, 因 此 7! 是 一 个 一 至 
性 检验 。 

检验 统计 量 7! 在 原 假定 下 是 渐 近 标准 正 态 分布 。 然 而 ,Li(1999) 以 及 La- 
vergne 和 Vuong(2000) 报 告 的 模拟 结果 揭示 出 正 态 近 似 在 小 样本 和 中 样本 中 效 
果 并 不 好 ,并 且 检 验 统计 量 也 依赖 于 h. ,和 h, 的 两 个 平滑 参数 集 , 并 且 对 平滑 
参数 的 选择 很 敏感 。 因 此 Lavergne 和 Vuong 建议 用 一 个 7! 检验 的 修正 版 本 ,该 
版 本 在 有 限 样本 上 的 效果 比 开 检验 更 好 。 或 者 ,也 可 以 使 用 自 举 法 来 更 好 地 近 
似 的 零 分 布 。 

为 了 在 实践 中 应 用 7! 检验 ,首先 ,回归 元 X 必须 分 割 成 两 部 分 ,WW 和 ZZ。 我 
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们 推荐 使 用 局 部 常数 最 小 交错 鉴定 法 来 帮助 确定 哪些 变量 属于 Z。 令 h, = 
cX, un “O (X, E| X, | 的 样本 标准 离 差 ) , 则 我 们 可 以 搜索 c, 来 最 小 化 
交错 鉴定 函数 。 从 第 2 章 定理 2.4 的 结果 我 们 知道 当 *, 是 一 个 不 相关 回归 元 
时 ,c, 应 该 发 散 到 ( 正 ) 无 穷 。 因 此 , 当 c, 很 大 时 ,比如 c, 超过 mn",%, 可 以 选 为 
Z 的 一 部 分 (等 同 于 h, > X, u) o 

7 的 自 举 法 过 程 

我 们 使 用 u” 来 表示 原始 自 举 误 差 ,该 误差 来 自 拟 合 残 差 ü, = Y, - 立 , 即 以 
概率 r= (1+Y5)/(2Y5) 有 wr = [(1-V5)/2] ;以 概率 1-r 有 uw = 


[ (1 +V5)/2] u, 

自 举 法 检验 统计 量 通过 以 下 步骤 得 到 : 

(i) 使 用 原始 自 举 误差 u 得 到 Y= 了 +u ,然后 通过 下 式 得 到 
E` (Y; 1w,)f, 的 核 估 计量 : 


Ef = (n = 1y ka Y; K, i 
j*i 


估计 的 密度 加 权 自 举 残 差 为 ü; f =O; - Yt). Ye -Y fao 
(ü) 计算 自 举 法 检验 统计 量 
dè 1 

I 





"aQ TD hk 


则 估计 的 渐 近 方差 为 
Gi = 2 (nhh) > > ü far FoK E -Dy 

由 此 标准 化 的 自 举 法 统计 量 由 7T4” = n (heh ) TE] 给 出 。 

(这 ) 多 次 重复 步 又 (i) 和 步骤 (ii) ,如 B=399 次 ,得 到 B 检验 统计 量 T" 的 
经 验 分 布 。 令 7 表示 自 举 法 分 布 的 a 分 位 点 。 如 果 Ti > 7 ,我 们 可 以 在 a 
的 显著 性 水 平 下 拒绝 原 假 定 。 

Gu 和 Li(2006 ) 报 告 的 模拟 结果 显示 上 述 自 举 法 检验 成 功 地 克服 了 使 用 渐 
近 正 态 近 似 时 出 现 的 置信 水 平 失真 。 估 计 的 置信 水 平 接近 于 名 义 值 ,结果 对 平 
滑 参数 的 选择 相对 不 敏感 。 

构造 统计 量 到 时 使 用 密度 加 权 避 免 了 随机 分 母 ,因而 简化 了 渐 近 分 析 。 类 
似 在 12.1.1 节 中 讨论 的 统计 量 忆 ,也 可 以 使 用 一 个 非 密度 加 权 形 式 , 它 将 导 
致 以 下 修正 的 检验 统计 量 : 


Ba = i a (Y, - Y.) (Y, - Ý) K, (X;,X;,)/Î(X;) (12.21) 
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则 定理 12.9 被 修改 为 如 下 : 
定理 12.10 在 定理 12.9 的 相似 条 件 下 ,同样 假定 f.(* ) 8 f ( - )£# W 
和 无 的 支撑 上 都 是 有 下 界 的 ,上 且 下 界 为 正 的 常数 。 则 在 H) 假定 下 ,我 们 有 : 


e - d 
Tin E Cnh h PE nAi >N 0,1) 


HP in = (2h h,/n?) > Y> RK, X XD A ' 


自 举 法 统计 量 7 可 以 通过 用 去” 替换 š, 从 Tl 83], 其 中 三 =Y; - 
Y , 和 构造 (密度 加 权 ) 统计 量 7 时 讨论 的 一 样 ,有 六 = (n - 1)" 
S yer. f. 
相关 工作 包括 Lavergne 和 Vuong(1996) „ffA Ë T ZEAK IKIE IH 
框架 中 选择 非 参数 回归 元 的 问题 ,并 且 Donald (1997) 提出 一 种 在 多 元 非 参 数 关 
系 下 选择 因子 的 非 参 数 检验 ,其 与 本 节 讨论 的 非 参数 显著 性 检验 很 相似 。 


12.3.5 分 类 变量 的 显著 性 检验 


在 这 一 节 中 我 们 考虑 在 一 个 非 参 数 回归 模型 中 分 类 变量 的 显著 性 检验 问 
题 。 上 一 节 讨 论 的 检验 可 以 被 扩展 到 这 样 的 情形 ,使 用 传统 的 非 参 数 频率 估计 
方法 的 分 类 变量 的 显著 性 检验 。 但 是 ,这 个 检验 在 有 限 样本 下 可 能 会 才 失 检验 
功效 ,因为 传统 的 频率 方法 把 样本 划分 为 许多 “离散 单元 "或 者 子 样本 ,而 只 使 
用 在 每 个 单元 里 的 观测 值 来 产生 一 个 非 参 数 人 和 估计。 这样 的 效率 损失 是 很 令 人 
遗憾 的 ,因为 在 原 假定 下 , 某 些 离散 变量 是 不 相关 的 回归 元 ,因此 需要 从 回归 模 
型 中 移 除 ,也 就 是 说 ,相应 的 离散 单元 需要 被 平滑 掉 , 而 不 是 把 样本 划分 成 不 同 
的 离散 单元 。 

考虑 一 个 有 混合 了 分 类 和 连续 回归 元 的 非 参 数 回归 模型 ,我 们 关注 的 是 要 
检验 是 否 某 些 分 类 回归 元 是 不 相关 的 , 即 多 余 的 。 将 可 能 是 多 余 的 分 类 解释 变 
量 记 为 z。 记 工 为 回归 模型 中 其 余 的 解释 变量 ,7 为 被 解释 变量 。 则 原 假定 可 
以 写成 ; 

Hi:E(YI x,z) = E(YI x)a.e. 

备 择 假定 是 对 假定 H. 的 否定 , 即 在 具有 正 测度 集 上 有 名:E(Ylx,z) #E(Yix), 
我 们 允许 同时 包含 分 类 (离散 ) 变量 和 连续 变量 。 首 先 , 考 虑 Z 是 一 个 一 元 
分 类 变量 的 情况 。 然 后 ,在 本 节 末 讨论 Z 为 多 元 的 情况 。 

令 g(x) =E(YIx),m(x,z) =E(YIx,z)。 原 假定 为 几乎 处 处 m(x,z) = 
g(x*)。 假 定 一 元 Z 取 c 个 不 同 值 10,1,2,…,c -1}。 如 果 c=2, 则 Z 是 一 个 
0 -1 的 虚拟 变量 ,这 在 实践 中 可 能 是 最 经 常 遇 到 的 情况 。 
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注意 我 们 已 经 假定 Z 是 个 一 元 分 类 变量 ,如果 Z 是 一 个 有 序 ( ordinal 或 or- 
dered) 分 类 变量 , 则 当 Z, = Z, 时 ,2 的 核 函 数 为 !(2,,2,,Az) = 1; 4 Z, Z 时 ， 
1(2.,2;,Az) = 人 。 如 果 2 是 名 义 变量 ( 即 无 序 变量 ), 则 当 Z =Z 时 ， 
1(Z,,Zi,Az) =1, 否 则 为 Az。 


采用 同样 的 简化 记号 Kua = [和 (下 -下 )M) , L, = 


[lO shy = [] KZZ A) 来 表示 核 本数 。 根 据 第 4 章 介绍 的 最 
小 二 乘 交 错 鉴 定 方法 选择 (大 ,及 ,A ，… ,A,,A,)。 

使 用 天 À, À, 来 分 别 表 示 交 错 鉴定 选择 的 六 .A, 和 A.。 当 不 成 立时 , 根 
据 定理 4.7 我 们 可 知 A, = 0,(n “9 ) ,因为 一 致 非 参 数 估计 要 求 当 no 时 
A, 一 0。 然 而 , 当 H, 成 立时 ,A, 将 收敛 到 它 的 上 界 值 1。 在 这 个 情况 下 ,交错 鉴 
定 方法 将 平滑 掉 不 相关 的 回归 元 Z, 这 将 比 传统 频率 方法 更 有 效 , 它 在 即使 离 
散 变量 不 相关 的 情况 下 把 样本 划分 为 很 多 子 集 。 

注意 对 于 所 有 的 著 及 1=1,…,c -1, 原 假定 H; 等 同 于 m(x,z=1/) = 
m(x,z=0)。 检 验 统计 量 为 7 的 一 个 估计 值 。 


r = 3 E |[m(x,z = l) - m(x,z = 0) ]° | 


WARA T >0,"4 RM H, 成 立时 ,六 =0。 因 此 ,六 被 看 成 是 检验 而 成 立 与 否 
的 适当 指标 。 一 个 可 行 的 检验 统计 量 由 下 式 给 出 : 
r. = 二 六 Y [m(x,,z, <i) -Alissa 01] (12. 22) 
其 中 
> Y,W; L; A, ..... 7, 
m(X,,Z, = 1) = 二 一 (12.23) 
> W; L; A, .....¿, 
很 容易 证 明 ,于 是 7 的 一 个 一 致 估 计量 。 因 此 ,在 砚 BERF, 依 概 
率 收敛 于 0; 在 H 假定 条 件 下 ,天 依 概率 收敛 于 1>0。 在 实际 中 ,如 果 厂 取 一 
个 过 大 的 值 , 则 拒绝 假定 Hi o 
为 了 处 理 多 元 2 的 情形 ,推广 检验 统计 量 式 (12.22) 是 直接 的 。 假 定 2 为 
d 维 变量 。 令 z, fl z, 分 别 表 示 Z 和 2Z,; 的 第 :个 元 素 。 假 定 z 在 
10,1,…,c,, 一 1 (s=1,…,d) 中 取 c, ,个 不 同 的 值 。 对 于 多 元 Z ,检验 统计 量 r. 
变 成 
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h = LY 2 [m(X,,z) — m(X,,z, = 0,.…,2, = QFE (12.24) 
其 中 S 表示 ze [] 10.1,--.e., -11 所 有 可 能 值 的 加 总 。 六 (无 ,z) 的 定义 类 


似 式 (12.3) ,只 是 一 元 核 1(2,,2Z,, 和 ,) 由 乘积 核 [] 1(2,,,2,,, 和 A,,) 取代 ,A 入,， 


定义 为 与 z,(s =1,…,d) 的 相 联 系 的 平滑 参数 A, ,的 交错 鉴定 值 。 我 们 现在 把 
关注 转向 自 举 法 ,来 通 近 检验 统计 量 的 有 限 样本 零 分 布 。 

[检验 的 渐 近 分 布 相当 复 杂 ( 它 依赖 于 入, 的 零 分 布 ) Racine 等 (2006 ) 建 
议 使 用 自 举 法 来 通 近 区 的 零 分 布 。 注 意 在 这 个 检验 问题 中 ,我 们 不 能 从 
(YX Z "中 再 取样 ,因为 它 没有 施加 在 原 假定 上 。 

定义 非 参 数 残 差 为 I 

B = X. - m (X.) -6, i= 1, n 
JeB mx) = > m (X,,z)/c ,5 = 2, (Y, -—m(X))/n 。 以 下 的 简单 自 举 法 
由 Racine 等 (2006 ) 建议。 

(i) 令 wi ,…,u， 为 原始 自 举 法 误差 ,通过 wu， 以 概率 r=(1+Y5)/(2V5) 取 
u" =[(1 -V5)/2]ii, 以 概率 1-r 取 wu =[(1+/5)/2]ü, 生成。 接着 由 Y= 
m (X,) +u ERY 。 自 举 样本 为 (Y; ,XX,,2,) ,i=1,…,n, 也 就 是 说 ,X=XX,， 
Z; =2 RRA iY, XZ; liro 

(ü) 利用 自 举 样本 来 计算 自 举 统计 量 F ,其 中 天 ”与 到 相同 ,除了 以 Z; 
取代 Z,。 也 就 是 说 ,它们 使 用 起 初 得 到 的 相同 交错 鉴定 选择 的 六 A 和 À. 

(üi) 重复 步骤 (i) 和 (ii) 多 次 ,比如 B=399 IK, SIK | 8 B B 2381586 
计量 的 有 序 统 计量 (升序 ) , 令 开 "为 1 | 7 的 a 分 位 点 。 如 果 在 显著 水 平 a 
EHK >K io WEBBE Ho 

上 述 自 举 法 的 优点 在 于 计算 简单 。 只 需要 应 用 一 次 交错 鉴定 ,而 不 需要 重 
复 计算 每 一 个 自 举 样本 的 交错 鉴定 平滑 参数 。 使 用 原始 自 举 法 的 另 一 个 优点 
是 ,原始 自 举 法 不 是 朴素 独立 同 分 布 自 举 法 ,检验 对 条 件 异 方差 的 出 现 是 稳健 
的 。 上 述 过 程 中 XX; 和 Z, 都 是 成 对 出 现 的 , 故 它 们 之 间 的 任何 相关 可 予以 保留 。 

Racine( 2006 ) 所 做 的 模拟 表明 了 自 举 法 检验 表现 良好 , 比 传 统 的 基于 频率 
的 非 参数 检验 具有 显著 更 好 的 检验 功效 。 

Lavergne( 2001 ) 提 出 了 一 个 对 一 组 非 参 数 回 归 函 数 的 等 同性 检验 。 该 检验 
也 可 用 于 检验 一 个 离散 变量 的 显著 性 。Hall 和 Hart( 1990) , King, Hart 和 Wehr- 
ly( 1991 ) ,Delgado(1993 ) ,以 及 Dette 和 Neumeyer (2001 ) 提出 了 检验 回归 曲线 
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等 价 的 检验 统计 量 。 
12.4 ”概率 密度 函数 的 相关 检验 


12.4.1 两 个 随机 变量 间 的 独立 性 检验 


令 (X,7)' 为 一 个 (p +4) x1 ÆR, RAKA RRA KA F (x,y) 
和 联合 概率 密度 隐 数 1 (x,y) 。 进 一 步 , 令 F(x)(F, (7y) ) 表 未 (Y) 的 边缘 累 
积分 布 函 数 ,有 边缘 概率 密度 函数 有 (x) (f, (y) )。 我 们 关心 的 是 检验 原 假定 
Hi J (x,y) =f (x)f (y) ,对 几乎 所 有 (x,y)。 在 HZ 假定 下 ,X 和 YY 相互 独立 。 
我 们 构造 一 个 基于 f(。，,: ) 与 fh(，)f(: ) 积 分 平方 差 的 检验 。 由 下 式 
给 出 : 


r = SIY) — f,(z)f,(y) ] dady 
= SIF (z,y) +f1(z)f2(y) - 2/.(2),(y) (zy) drdy 
= [rs,y)dF(z,y) + [f(x) dF (x) [fa (y) dF, (y) 


-2[/.(z2)f,(y)dF(z,y) 


=E[f/(X,Y)] + ELA (X) JE[/,(Y)] - 2E[f,(X)f,(Y)] (12.25) 
以 相应 的 样本 值 取代 未 知 的 总 体 均 值 ,以 相应 的 去 一 核 估计 值 取代 
式 (12.5) 中 的 (Xi;,Y;)、f1 (X,) #ll f, (Y,) ,可 以 得 到 一 个 可 行 的 检验 统计 量 : 


"Pa 28 EE 区 


2 n n 
-5 K; Ki 


其 中 ,再 次 有 Ki = [AIEUX - X,)/h,,) ,其 中 K y = TAG - 


YV,)/h,,) 。 此 处 我 们 使 用 相同 的 平滑 参数 集 , 即 h., h, ,来 估计 联合 概率 密度 
函数 (x,y) 和 边缘 概率 密度 函数 /; (z) Bf O) 。 

条 件 12.5 

(i)f (x,y).f, (z) fl f, (x) 是 连续 有 界 函 数 , |f (w+v) -f (u)| < 
C lv| (1=1,2), 

(ii) 单 变量 核 函 数 k 是 一 个 有 界 、 对 称 、 非 负 的 二 阶 核 阻 数 。 

(i) 当 n 一 w 时 ,对 于 s=1,…,p, 有 h,, 一 0; 对 于 s=1,…,g 有 h,, 一 0; 且 


(12. 26) 
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nh, 1°*h, phy, 。 
Ahmad 和 Li(1997b) 证 明了 以 下 结论 。 
定理 12.11 $ H,, =h, ih, p, H, =h "h ERI 12.3 和 假定 H, 


下 ,我 们 有 


"R. in Š 


n(H, H, )'276 => N(0,1) (12. 27) 
Jp d; = 0 X > (R) (NO. 
Ahmad 和 Li(1997a) 证 明了 定理 12. 11 ,虽然 他 们 使 用 了 一 个 不 同 的 方差 
估计 量 : 
g, = 2" [Ly FW) | [Ly A)| 
定理 12.11 给 出 的 5; 相对 于 6? 在 某 种 程度 上 更 容易 计算 ,因为 前 者 并 不 要 求 
计算 x(x = fk w). 


12.4.2 一 个 参数 概率 密度 函数 的 检验 iiia 


Fan(1994) 考 虑 了 检验 一 个 特定 参数 概率 密度 函数 的 问题 。 也 就 是 对 于 几 
乎 所 有 的 x ,检验 
Ho:f (x) = fo (x,ë) 
其 中 不 是 一 个 未 知 概率 密度 函数 ,5 是 一 个 未 知 参 数 向 量 。 
Fan 考虑 了 一 个 基于 下 式 的 检验 : 


= [tOo = 人 机 
s J) +fo(x,6) -2f (x)f, (2,8) ] dx 
= [f(x)ar (a) + [fèCx,8)da -2 [f (x,8)dF (a) 
= E[f(X)] + [/f3(x,6)dx - 2E [f (X,8)] 


令 和 表示 基于 零 分 布 的 8, 的 极 大 似 然 估 计 值 。 以 f_,(X,) 和 5 分别 取代 f (X,) 
和 6 得 到 一 个 可 行 的 统计 量 : 


K= r) f. (x) + f(x,6) as -57 f, (X, ,á) 
RRA) = (a - D” Y K, GX), K, (XX) = J] ae (222), 
Fan(1994) 证 明了 天 统计 量 有 三 个 不 同 的 渐 近 分 布 ,取决 于 数据 是 否 平滑 
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不 足 ( nh h 一 0,m， = Y 尼 ) ,最 优 平滑 (nh,…h, 吸 一 c >0) ,或 过 度 平滑 


(nh, h m2— °° ) ;也 可 参见 Pagan 和 Ullah ( 1999 ,第 63 页 )。 

Fan(1994) 还 提出 了 偏差 修正 检验 统计 量 , 它 在 h, 一 0 和 nh,…h, 一 % 的 一 
般 情况 下 具有 一 个 简单 的 渐 近 分 布 ,因此 ,数据 可 以 是 平滑 不 足 、 最 优 平滑 或 者 
过 度 平滑 。 我 们 将 在 下 面 给 出 偏差 修正 检验 。 


偏差 修正 检验 需要 以 核 平滑 形式 K, * f(x,6) = | K(x,0)f (v,6) dv 其 中 
的 星 号 ( * ) 表 示 卷 积 ,取代 中 的 有 (x,8) ,这 个 检验 统计 量 为 : 


É =n” F fa (X.) + | LK, *h (x,8)12dx -2n" > K, * f, (X, ,Š) 


(12.28) 
天 的 渐 近 分 布 由 下 一 个 定理 给 出 。 
定理 12.12 在 条 件 12.5 和 H; 假 定 条 件 下 ,有 
n (hh) E6, =N (0,1) 
hh, $ < 
Rpa ATES Y U", 
证 明 : 见 Fan( 1994) 的 定理 4.1, 口 


关键 是 要 注意 到 我 们 这 里 给 出 的 检验 统计 量 与 Fan(1994 ) 的 定理 4.1 给 出 
的 T. 统计 量 有 稍 许 不 同 。Fan 以 [P (x) a WARSA’ C) dx ,其 中 


EKOL =Y > f Ks (X.,x) K, (X,,x) dx 
= Y > EUA) 
jth K, (X,,X,) = I] h. k ((X, - X.)/h,) „H k (v) = fk (u)k (v + u)du Jë 
一 个 双重 卷 积 核 。Fan 的 定理 4.2 中 的 中 间 项 (mh 各) ' | K (e) ae 等 于 此 
处 的 (nj pi ) ' K (0) (K (0) = k (0)*), ÆR (12. 28) 中 ,我 们 以 
[EGAP x) =n S P. (XO = tn (a - 112 X K A) 取代 
[Eade = [f(x)dF (x) 。 在 我 们 的 统计 量 中 ,K(“' ) 与 Fan 的 T, 统计 量 
HRBU K O ) 起 的 作用 相同 。 因 此 ,如 果 我 们 不 使 用 去 一 核 估 计量 , 则 我 
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们 的 检验 有 一 个 中 间 项 等 于 (nh,…h,)“'k (0)", 即 n > > K, (X,,X,) 中 的 i 


=j 项 。 但 由 于 我 们 选择 使 用 一 个 去 一 核 估 计 值 ,我们 的 检验 F 不 具有 渐 近 非 
零 中 间 项 。 总 的 来 说 ,一 个 中 心 值 不 受 限制 的 检验 比 一 个 有 非 零 中 心 值 的 检验 
有 更 好 的 有 限 样本 性 质 。 因 为 后 者 需要 对 中 心 值 进行 估计 ,这 经 常会 导致 一 些 
有 限 样本 偏差 。 


12.4.3 条 件 参数 分 布 的 核 检验 


ASYA 7 表示 独立 同 分 布 数 据 , 其 联合 概率 密度 函数 由 f(y,x) 给 定 。 
今 f(ylx) 表 示 给 定 X 的 Y 的 条 件 概 率 密度 函数 。 我 们 关注 的 是 检验 f(ylx) 是 
否 属于 一 个 特定 的 参数 族 。 令 p (ylx,9) 表 示 一 个 参数 条 件 概率 密度 函数 ,9 是 
一 个 kx1 维 参数 向 量 。 原 假定 由 下 式 给 定 : 
Hi:P[f(Y.1X) =p(Y1X,9)] = 1, 某 些 9e 0 
其 中 @ 是 参数 空间 的 一 个 紧 集 。 备 择 假 定 是 对 原 假定 的 否定 , 即 对 所 有 be@， 
H,:P [f (Y,1X,) =p (Y,1X,,0)] <1 
Kullback-Leibler 信息 准则 度量 了 两 个 条 件 累 积分 布 函 数 之 间 的 差异 ,该 准 
则 由 下 式 定 义 : 
(1 无) 
Kp,f) = E{In A } = [rom | i 
(12. 29) 
我 们 都 知道 1(p,f) =0, 当 且 仅 当 f (ylx) =p (ylx,b) 几 乎 处 处 有 7T(PvD =0。 
因此 ,I (p,f) 可 以 作为 检验 H, 成 立 与 否 的 合适 度量 。Zheng(2000) 考 虑 了 信息 方程 
的 一 阶 展开 式 , 即 
AYA X.) (Y, X.) 
E{hn | ,0) } = ET Fy 1] 
Y,1 X.) - p(Y, | X,,0) 
[| (12. 30) 
以 密度 f(x) 对 式 (12.30) 进 行 加 权 得 到 
Y, 1 X.),(X,) - p(Y, 1 X,,0)f, (X, 
I (pf) = E [Ê f i f "| 
Zheng(2000) 证 明了 7, (f,p) 20, 5 RA% H, 成 立时 等 号 成 立 。 因 此 ， 
1,(f,p) 也 可 以 看 成 是 检验 H, 成 立 与 否 的 合适 度量 。Zheng 考虑 了 和 和 了 工 都 是 
连续 变量 的 情况 。Fan 等 (2006 ) 将 Zheng 的 检验 扩展 到 了 离散 因 变 量 和 混合 条 
件 协 变量 的 情况 。 下 面 我 们 首先 讨论 因 变 量 了 离散 的 情况 ( 工 包 含混 合 数据 类 
型 )。 这 包括 了 很 多 有 趣 的 情况 ,如 二 元 或 多 项 式 响 应 模型 参数 的 正确 设 定 检 


(12.31) 
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x s. E S ú E S S s 


Ro Q X=(X X), Hp X 为 q x1 Ek Sk p B. X° 为 r x1 维 离散 变量 。 我 
MIH XCX RR X° ( X) BJ 38 s PER. OIX AA RRER 4 章 介绍 的 


关于 离散 变量 X: 00 RERBA LXX A) = [| 1 (XX ,A,)。 


对 于 连续 元 素 L, RRRA AERE — Et) RR K. ES jk,xf 
于 混合 数据 变量 X= (X: ,X°) , 核 函数 由 式 (12.32) 定 义 (y = (h,A)) 


-X 
有) (12.32) 





k E (E 


当 Y, 是 一 个 离散 变量 时 ,我 们 通过 下 面 的 去 一 核 估计 值 来 估计 f ( Y, X,) 和 
A (X) (我 们 没有 平滑 y): 


AY X) = Le 1(Y, = Y.)K,(X,,X,) (9) 
n jai 


A CN 3 z2 
fil) = — 2 K.(X,,X,) (12.34) 


我 们 通过 下 式 给 定 的 一 个 了 (: 1: ,0,) 的 核 加 权 形 式 来 估计 
p (Y,1X,,0,)o 


FOX) = L SK, PCI X,,6) (12.35) 
其 中 9 是 基于 原 模型 的 9, 的 最 大 似 然 估计 值 。 
由 上 述 定义 的 f(Y,X,) /, (XDA f (Y,,X,) ,可 以 得 到 检验 统计 量 : 


š "ú 1 n n K. _ 
en Ca UY = Yp -p01 X,,0)1] 





(12.36) 
Fan 等 (2006 ) 推荐 使 用 第 5 章 中 讨论 的 交错 鉴定 过 程 来 选择 平滑 参数 
hysh ,Al，…,A,o。 大 的 渐 近 分 布 将 在 下 一 个 定理 给 出 。 
定理 12.13 在 Fan 等 (2006 ) 给 出 的 条 件 下 ,在 H, FRIA 
T. = n (hr-h ) PE a; > N(0,1) 依 分 布 收敛 
其 中 
.» 2(h 1(Y, = Y,) - p(Y,! X,,0)]1° 
| 


是 ci = [| 了 (Co)do]E[(1 - p); (X) ] 的 一 个 一 致 估计 量 ,也 是 n(h… 
h) "的 浙 近 方差。 
TUEN H F, T REE + m ,因此 它 是 一 个 一 致 性 检验 。Fan 等 
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(2006) 中 的 模拟 证 明 如 果 我 们 使 用 渐 近 标准 正 态 临界 值 ,7 检验 会 遭受 有 限 
样本 尺度 的 扭曲 。Fan 等 建议 使 用 以 下 的 自 举 法 程序 来 更 好 地 逼近 T. a A BE 
本 原 分 布 。 

(i) 基于 参数 条 件 分 布 p(Y 1X,,6) ER Y; o #K|X,. Y; | 为 自 举 样本 。 

(ü) 基于 参数 原 模型 ,使 用 自 举 样本 估计 9。 令 69" 代表 得 到 的 估计 量 。 用 
j T, 相同 的 方法 计算 自 举 统计 量 Ti, 除了 用 Y; 和 6" 分别 替代 Y 和 9。 

(ii) 重复 步骤 (i) 和 (六 ) 多 次 ,比如 B=399 ,得 到 |7,,1 -的 经 验 分 布 。 令 
7 代表 自 举 分 布 的 a 分 位 点 。 如 果 T. > 7 ,我 们 在 显著 水 平 a 上 拒绝 原 候 
定 。 

接 下 来 我 们 将 讨论 因 变量 y 是 连续 的 情形 。 为 了 解释 的 简单 化 ,我 们 仅 考 虑 Y 
是 一 个 标量 的 情形 。Zheng(2000) 建 议 使 用 一 个 平滑 密度 估计 量 /(Y,X,) 来 估计 
p(Y,IX,,0,)/,(X,) ,其 中 


F 1 < F = y X, 

Oa) | 
其 中 Waa, Ce) SAS WAC), Wa C> ) (特别 定义 地 ) 是 一 个 单 变 量 的 核 本 数 。 
Zheng 建议 首先 将 因 变量 转换 使 其 落 在 [0,1] 之 间 , 然 后 为 W,( ` ) 选择 一 个 特 
珠 的 核 函 数 ,这 个 核 函数 拥有 以 下 性 质 , 即 当 na 时 ,好 | WCC, - y), )2ay 


o Zheng 提出 下 面 的 检验 统计 量 : 
1 n n 





- X, š 
n )/Oy 1 X,,6) dy (12.37) 








“n(n _ h A < 
Ws, je - [maa YK, fl X,,ô)dy 
] a2. 38) 
fX; r. 
L. .的 渐 近 分 布 由 下 面 的 定理 给 出 。 


定理 12.14 fE Fan 等 (2006) 给 出 的 条 件 下 ,在 KBEF, RIA 
Ti. = n (hhh) PE /6:. — N(0,1) 依 分 布 收敛 
其 中 
2(h h, 
> 

其 他 的 模型 设 定 检验 包括 Gozalo 和 Linton (2001 ) 以 及 Hirdle , Sperlich 和 
Spokoiny (2001 ) ,他 们 提出 了 一 个 基于 核 的 检验 ,用 来 检验 一 般 的 非 参 数 回归 模 
型 的 可 加 性 。Sun(2006 ) 提出 了 一 种 检验 条 件 分 位 数 函 数 是 否 等 同 的 检验 。 
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12.5 应 用 


12.5.1 增长 收敛 俱乐部 


Quah( 1996 ) ,Maasoumi 等 (2007) 和 其 他 学 者 对 是 否 存在 "收敛 俱乐部 "的 
观点 进行 了 检验 ,也 就 是 说 ,对 于 俱乐部 ,如 经 济 合作 发 展 组 织 (OECD ) ,成 员 的 
增长 率 是 否 不 同 。 我 们 并 不 打算 在 这 里 回顾 大 量 的 文献 ,而 是 建议 感 兴趣 的 读 
者 参见 Mankiw, Romer 和 Weil ( 1992 ) , Liu 和 Stengos ( 1999 ) , Durlauf 和 Quah 
(1999) 以 及 其 中 的 参考 文献 。 接 下 来 ,我 们 沿用 Maasoumi 等 的 分 析 。 

我 们 应 用 式 (12.22) 中 的 检验 统计 量 来 判定 OECD 国家 和 非 OECD 国家 是 
理 遵 从 同样 的 增长 模型 。 我 们 通过 检验 OECD 成 员 ( 一 个 二 元 分 类 变量 ) 在 非 
参数 框架 下 是 否 是 一 个 相关 的 回归 元 做 到 这 一 点 。 原 假定 为 OECD 成 员 是 一 
个 非 相 关 的 回归 元 ,所 以 在 原 假 定 的 前 提 下 ,OECD 和 非 OECD 国家 的 增长 率 是 
由 相同 的 增长 模型 决定 的 。 备 择 假定 是 原 假定 的 反面 ,例如 ,OECD 和 非 OECD 
国家 有 不 同 增长 率 ( 回归) 模型 。 

按照 Liu 和 Stengos (1999 ) 的 方法 ,我 们 利用 88 个 国家 在 过 去 七 个 五 年 
( 1960—1964 , 1965—1969 , 1970—1974 , 1975—1979 , 1980—1984 , 1985—1989, 
1990—1994 ) 的 面板 数据 来 得 到 面板 中 的 88 x7 =616 个 观测 值 。 我 们 通过 下 
面 的 模型 来 构建 我 们 的 检验 : 

Growth, =m( OECD,,dT,,ln(inv,) ,ljn(popgro,) ,ln( inigdp, ) ， 

In( humancap,)) + €, (12.39) 
其 中 Crowth,, 指 每 期 的 人 均 收 入 的 增长 率 ,dT, 是 七 个 时 期 的 虚拟 变量 ,inv, 是 
指 投资 占 国内 生产 总 值 (CDP) 的 比率 ，popgro 代 表 劳 动力 的 增长 inigdp, fÈ 
表 每 期 开始 的 人 均 收 入 ，humancap,, 指 人 力 资 本 。 初 始 收入 估计 来 自 Summers- 
Heston 的 数据 库 ,五 年 期 的 平均 投资 /CDP 比率 的 估计 也 是 一 样 。 人 均 GDP 的 平 
均 增 长 率 和 每 期 的 平均 每 年 人 口 增长 率 是 从 世界 银行 得 到 的 。 最 后 ,超过 15 
岁 的 平均 年 受 教育 水 平 是 从 Barro 和 Lee ( 2000 ) 的 文章 中 得 到 的 。 

在 我 们 对 基于 平滑 的 非 参 数 检验 的 结果 进行 报告 之 前 ,我 们 首先 考虑 一 
些 应 对 此 问题 流行 的 参数 方法 。 一 种 常用 的 参数 方法 是 应 用 一 个 线性 回归 
模型 ,把 OECD 虚拟 变量 作为 一 个 可 行 的 回归 元 ,然后 检验 这 个 虚拟 变量 的 
系数 是 否 显著 。 我 们 考虑 Liu 和 Stengos(1999 ) 提出 的 一 个 参数 设 定 , 其 中 包 
含 OECD 国家 状态 和 年 份 的 虚拟 变量 ,初始 的 GDP 和 人 力 资本 变量 是 非 线性 
的 ,由 下 式 给 出 : 
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Growth, = B,OECD, + 2 B. dT, + Bsln(inv,) + B,ln( popgro, ) 


+ > a,[ln(inigdp, ) ] + Y> y,[In(humancap),)] + e, (12.40) 


模型 (12. 40) 的 估计 结果 得 到 OECD 虚拟 变量 的 上 统计 量 等 于 
-0.973,P 值 为 0.33。 于 是 ,参数 检验 不 能 拒绝 原 假定 。 

接 下 来 ,我 们 遵循 传统 的 频率 方法 并 使 用 非 参 数 检验 , 即 我 们 的 检验 是 基 
于 模型 (12.39) ,其 中 样本 根据 OECD 和 dT 虚拟 变量 划分 。 使 用 B =999 KA 
举 再 抽样 ,我 们 得 到 0. 113 的 P 值 ,我 们 以 传统 的 1% .5% 、10% 的 水 平 再 一 次 
拒绝 原 假定 。 

我 们 现在 报告 以 平滑 为 基础 的 非 参数 检验 的 结果 ( 见 12.3.5 节 ) 。 对 于 每 
一 个 自 举 检验 ,我 们 采用 B=999 次 自 举 再 抽样 ,而 对 于 交错 鉴定 检验 ,我 们 应 
用 5 个 重新 开始 的 数值 搜索 算法 ,并 保留 那些 产生 交错 鉴定 函数 的 最 低 值 的 平 
滑 参 数 。 在 人 ;下 从 经 验 累积 分 布 函 数 的 反 函 数 得 到 的 P 值 为 0.006, 这 个 值 是 
否决 原 假定 有 效 性 的 强 有 力 的 证 据 。 

参数 检验 和 非 参 数 检验 的 不 一 致 性 也 显示 了 参数 模型 的 设 定 是 错误 的 。 
所 以 对 于 参数 模型 的 正确 设 定 我 们 应 用 一 致 性 非 参 数 检 验 三 ( 见 12.1.1 节 )。 
这 个 检验 的 P 值 为 0.001, 因 此 我 们 拒绝 正确 参数 设 定 的 原 假定 。 

传统 的 基于 频率 的 非 参数 检验 同样 不 能 拒绝 原 假 定 的 原因 是 当 我 们 估计 
非 参数 回归 函数 时 , 它 把 样本 分 成 2x7 =14 个 部 分 (离散 单元 数 来 自 离散 变量 
OECD 和 d7) ,所 以 对 于 传统 的 基于 频率 的 检验 , 较 小 的 ( 子 ) 样 本 容量 导致 相 
当 大 的 有 限 样本 功效 损失 。 

我 们 得 出 结论 ,稳健 的 非 参 数 证 据 支 持 收敛 俱乐部 的 存在 ,这 是 一 个 当 
使 用 一 般 的 参数 估计 和 传统 的 非 参数 方法 仍然 没有 检测 到 的 特征 。 也 就 是 
说 ,OECD 国家 的 增长 率 相 比 非 OECD 国家 是 通过 不 同 的 增长 模式 而 产 
生 的 。 


12.6 证 明 


12.6.1 定理 12.1 的 证 明 


证 明 :我们 将 在 m(X,,y) =a +X; BEZ, y 的 情况 下 证 明定 理 12. 1, 其 中 
Zi=(1,Xi) ,y= (a,B')'。 一般 情况 的 证 明 过 程 类 似 ,将 留 作 习 题 (参见 习题 
12.4), WH ù, =Y, -Ziy =u -Zi (9 7), 可 得 (运用 n(n-1)~~n)。 
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bi 加 x x & 路 = 路 s= 


到 K, - 2(y - y) n” 2 u,Z K, i 
ji t=l j#i 


ji 
+ (y - y)'n ° py T Z,Z; K, ,(y - y) 
i=l jw 


人 
其 中 五 的 定义 是 显而易见 的 (j=1,2,3)。 


Wn = 2n” ”2 > uauK, , ,可 以 很 容易 证 明 


Eti’ i > E [urus Ka 1 

















E, [E [o° (X, )o°(X,)K ((X, - X,)/h)°] +0o(1)} 

"m {fA W)C) eC)K (Cn - 5) /B)'dnds + (D ] 
"= 1 [| )/(x, + ho)o? (xz, )o2 (x, + hv)K (v) dx do +o(1)] 
sag [H [ADe dn + ol1)] 

-总 [K'E [f(X,)o*(X,)] +0(1)} = (R) |o? + o(1)| 


EE, nHn RAE 0 和 渐 近 方差 ol. H Hall (1984) 的 中 心 极限 定理 
见 附录 A 引 理 A.16) ,我 们 知道 
nH: S, N(0,0?) 

S Dau LR. 分 别 表示 D. ,的 第 上 个 和 第 (ts) 个 元 素 。 很 容易 证 明 ,对 于 
FARHA EL |G] =0(n') ,这 意味 着 i = 0,(n”"”) ;同样 ,对 于 所 有 的 
ts AELG] =0(1), 这 意味 着 D. = 0,(1)。 这 些 结果 与 了 - ?y = 
0,(n 2 ) 一 起 可 推出 


naP = nBr, + O(H2) 5, N(0,o2) (12.41) 
习题 12.3 要 求 读者 证 明 6。= 0o。+o,(1)。 这 就 完成 了 对 定义 12.1 的 
证 明 。 D 


12.6.2 定理 12.2 的 证 明 


证 明 :我 们 只 考虑 当 m(X,y) =a + X' B = Z! y 时 的 情况 。 令 g(X,) = 
E(Y.IX,) , 令 7 表示 H, 假定 条 件 下 的 概率 极限 。 类 似 于 定理 12.1 的 证 明 ， 
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3: R gi 部 说 器 së W E 


我 们 可 以 证 明 H, 假定 条 件 下 ,全 =71,。+o,(1) ,其 中 
ha = ED [w +g) = 25.5] [u + g(X.) -ZK CA, - X.) 
习题 12.4 要 求 读 者 证 明和 ,= C +o(1) ,其 中 C = E [f(X,) (g(X,) - Z! y) ] 
>0。 因 此 ,nH =nH“C +o, (nH ) ,这 暗含 了 定理 12.2。 口 
12.6.3 定理 12.5 的 证 明 


证 明 :检验 统计 量 天 可 以 写成 天 = 天 + 天 ,其 中 


D, = G 2 (n. m.) ? > Ki 


i=l 


HP cns =k (0)" (hih,) [ny +n; ] ,n = min In onm}, E. 


ps l 1 
P。= +} 2: F: + mes aq Na 


nin, n n; 





其 中 如 果 被 加 数 包 含 庆 , 则 > = Y MREMA X = X , Y 
的 定义 类 似 。 | 
AX H =h h, RAED BE BJ] 
E [I,] = Ča t (n.,n,) 'O(nH.) = cu [l + O(n 'H)] 
R. 390 
var (I) = (n,n, H,) °0(n° H° +nH,) = O(n™) 
(见习 题 12.4) 因 此 ， 
h, = cb+0,(n ) (12. 42) 
令 z, = (X,,Y,) EX H.(z,,z,) = Ki, +K , - Ky” - e 对 于 i#j, ŒH 
假定 条 件 下 (由 于 f=g) 有 
E (H, (z,,z) | z] ={E [kil X] -E[k% ! X,]! 
+ {E [kil Y,] -E [iZ ! Y,]] = 0 
因此 ,i, 是 一 个 退化 的 U 统 计量 ( 见 附录 A 中 的 定义 ) 。 很 容易 看 出 E[ (J.,)”] 
=var (J,.) =0 ((n,n,H,) `°), E. 
var[(n.n,H,)'?;,] = E |[ (n.n,H,)'?D,] | 
= (mm 用) > > In EL (kiy) ] + n;'E[ (ki ,)2] 
+ (nın) °E[ (K3) ] + (nn) °E[ (%)?] + O(n ) | 
~(ninH,) > > In: (ku e) + nz (8. ,)° 
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+2(n.n,) 2 (12)21 
= sx = 0,(1) 
上 述 4 一 B 意 味 着 4=B+o,(1)。 因 此 ,0? E: E [ (nmh) h] 的 一 个 一 至 
估计 量 。 注 意 
Ape Anp EIT aT Shu ¿Z ry 


k ds hih, i=l ni n; +T pa)” 
= 0, ((nh*…h,)™) = o,(1) 

因此 ， G 是 var [ (n, n; H, ) '2 p. ] 的 一 个 一 致 估计 量 。 

最 后 ,关于 退化 忌 统 计量 的 成 立 ( 见 附录 A) ,可 直接 检查 Hall(1984) 中 心 
极限 定理 的 条 件 。 因 此 ,我 们 有 

(nn B.)'2 É 76, “+ N(0,1) (12.43) 

式 (12.42) 和 式 (12.43) 可 以 推出 

(nn,H,)'?[L -c,,]/G, =(mmH) ho +0,(1)SN (0,1) 

这 就 完成 了 定理 12.5 的 证 明 。 口 


12.6.4 定理 12.9 的 证 明 


r=r(W,) 三 E(Y,1W,)。 然 后 使 用 U,=Y, - Y, = (r, —F,) +u, — ü,, JÉ rh 
F, = 5 r;L,. a ,Ui = n p> u, A ,我 们 有 如 下 的 表达 式 : 


= aert) (r; =P) (r, = r,) 
+ uu, + üü, + 2u,( r; — F,) — 28,(r, — F,) — 2u,ü;| K 
x= 4 +E +3F -3F U SE 

为 了 记号 的 简洁 ,在 下 面 的 证 明 过 程 中 我 们 假定 h, =… = h ,h,, =… = 
h, ,=h.。 我 们 将 通过 证 明 P. =o ((nh*%?) '),i=1,3,4,5,6, ARES fi E 
nh? /Gs 一 N(0,1) 来 完成 定理 12.9 的 证 明 。 在 以 下 的 引 理 12.1 至 引 理 12.6 
中 这 些 结论 将 被 证 明 。 

引 理 12.1 Ji =o,((nh*2)"'), 

证 明 : 注 意 K(， ) 非 负 , 且 fi n > Kii(n -1~n) ,我 们 有 


R; = n > > (r, — P(r = ;,) K, ; 
< (1/2)n™ > > [(r R) + (r, — #,)2]K, , 


h. 
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i NY z t X = = 


= n> > (r, = Ay E =n" > (T, - °) fr, 
一 m 2; (r, - F,) fr, = O, (hw $ (nh?) ') 


= o( (nh?) `) 
倒数 第 二 行 由 第 7 章 引 理 7. 2 得 到 。 
引 理 12.2 
(im 一 7 一 NCO,os) 依 分 布 收 敛 。 
(ii)cs=os+or(1)。 
(i) 由 定理 12.1 证 明 ,(ii) 可 以 用 引 理 A. 16 容易 地 证 明 。 
引 理 12.3 I, =o,((nh*2)"'), 
证 明 : 


-2 A A 
Ja = n > y uu K, i 
D Ji 


< (1⁄2)n° > > [i +ù lK 


= (mh)™ Y ùK 


= n > f, 

=m > Rf + n” X” ñ (f, - f.) 
= [0(1) +o,(1)]0((nhy) ') 
= o((nh*%?)"') 


由 第 7 章 引 理 7.2 可 得 。 
引 理 12.4 已 =o((nmh2)-)。 


证 明 : 使 用 恒等式 广 ' =£ a + (£ -f,)/f,] , 据 引 理 7.5 我 们 有 
m =n °> > ur, = F) Ky 

= (mh) > >` wn = ,)f,K, f; 
~n”? k 3 > u, (r; _ LMK. Z 
=I, 

Fa. =n° Y u,( r, TAT 
=0,(h} + (nh?)™') 
=0,( (nh?) ™) 
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Re * z. Ga x a = Xi x 


引 理 12.5 1% =o,((nh*?) '), 
证 明 : 由 引 理 12.1 A 12.3 的 证 明 ， 


F, = n > > u(r se f) 

(1⁄2) (nèh) >》 >` [ (r, - ,)K,,, + Kag] 

O ,(h” + (nh) ') 

= o( (nh’”’)-') L] 


引 理 12.6 I, =o,((nh*?)”`'), 
证 明 : 由 引 理 7.5 得 


L= 2 DD ik 

(nh”)- = sñ f,K, fr 

> Z wf, '[1 + (f, - £.) /f,] 
`a uñ f,K, J" = Ts, 


= n` > > W 
= O,((nh.p) `' ) 
= o((nh°?)™) = 


IA 


12.7 J KH 


习题 12.1 假定 式 (12.4) 是 真实 模型 ,但 是 人 们 却 针对 模型 (12.3) 来 检 
验 模型 (12.2)。 同 时 假定 E(X) =E(X;) = E(X,) =0。 


(i) 证 明 8, 0, 其 中 ,是 基于 模型 (12.3)p， he 
Gi) 证 明 标准 :检验 不 具有 渐 近 趋 于 1 的 功效 ( 即 不 是 一 个 一 致 性 检验 ) 。 
习题 12.2 ote etter pe (ul) =0, 
E* (wi) =ù, j=2,3. JEP E (>) =E 11X Y, a) 
习题 12.3 假定 g(X,y) =a+X'B=2Z'y, 其 中 ,2Z' =(1,X'),y = 
(w,B')'oH ú, =u,- Zi (y - y) ,我 们 有 
- eo TTA uu K, 一 iS > u,Z K, , 


=] jøi 
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#& 5 Aa 全 8 这 š 


a da i N [D È > 22k, Jo- y) 


= ln - 2(y - y)ln + (y - y) 17 - y) 

其 中 心 的 定义 是 显而易见 的 。 

(i) 证 明 I. =O (n  ),0 =0,(1), 

提示 : 先 证 明 对 于 所 有 的 1,s=1,…,g+1 有 E[|1,|]=0(n)， 
E[ |in 1] =0(1) ,其 中 了 ,是 世 第 (1,s) 个 元 素 (1,, 为 (g +1) x(g+1) 维 )。 

(ü) WEH 22 = ol +o (1), 

HREH E [e] =o; +o(1) ,并 运用 互 分 解 结 果 ( 引 理 A. 15)。 

(iii) 证 明 nH! n, >N(0,0}) 。 

提示 :首先 证 明 EC) =0,var(nH h) =o, +0(1)s XF 1, 8 , g E 
Hall ( 1984) 的 定理 1 给 出 的 条 件 成 立 , 即 定义 H, (W,,W,) = uu, K( (X, - X )/h) , 
W, =(u,,X;),G,(W,,W,) =E [H,(W,,W,)H,(W,,W,) |W,,W,], 证 明 

E [Gi(W,,W,)] +n "E [HI (W, ,W,) ] 
|E [HI(W,,W,) ] |° 

O(H}) +n'O(H.) 
a Y 
O(H + (nH,)™) = o(1) 


(iv) 根据 (i) 和 (ii) 的 结果 证 明 nH >N(0,1). 
习题 12.4 ”类 似 于 定理 12.2 证 明 过 程 中 的 定义 , 令 
= n> 2. [ u; + g(X,) E y] [u + g(X,) - Z'y]K,(X,,X.) 


(i) HEB] E [I.,]=E[(g(X,) -Z;y) °] +o(1)。 396 

(ü) 证 明 I = E[(zg(X,) -Ziy) ] +o(1)。 

提示 :注意 1,o 可 以 写成 U 统 计量 的 二 阶 形 式 , 运 用 U 统 计量 的 H-¿Y t ( W 
附录 A) ,根据 (让 很 快 得 到 (ii)。 

习题 12.5 XWF 12.1.1 WAF J` HEX WEH Y’ -y=0,(n “)。 

提示 : 记 7y”-y=7y”-7y+7y-y。 证 明 互 "[(7” -y)]=0, (n). 

习题 12.6 根据 定理 12.5 定义 的 天 .ay 及 ,考虑 当 m =n, =n 时 的 
情形 。 

G) 证 明 必 是 一 个 退化 忌 统 计量 ,也 就 是 证 明 ELK + Ki -2K -K | 
Arl =0, 

(ii) 证 明 var(n (h h.) 2 P) =ø, +0(1), 
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Gii) 证 明 ó; = ol +o, (1). 
(iv) js JH F ñi(i)—( ui)BJ#h ë EB E BB 12.5. 
提示 :在 (iD) 中 记 > 》 =2X > ,并 运用 (i) 的 结果 。 运 用 引 理 A.16 证 
明 (iii) 。 对 (iv) 检 查 Hall(1984) 的 中 心 极限 条 件 。 
a2 _ 2 < 2 y 2 
习题 12.7 证 明 Oo = n(n-1) z 1) b >. (Ki) (Ki) o 


在 定理 12.11 中 定义 的 是 of =E [f, (X,)°] E [f, ( Y,)*] fJ) — ahi 
计量 。 
提示 :注意 在 Hs 假定 条 件 下 ,X 和 了 是 独立 的 ， 
E [ó?] = 2E [K, (X, - X,) ]E [K, (Y, - Y,)] 
= 2 |E [f (X.)°'] +o(1)]x* [E [f, (Y,)?] +o(l)| 
= g +o(1) 


运用 引 理 A. 16 证 明 var(0?) =o(1)。 
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第 12 章 中 曾 讨 论 了 条 件 矩 检验 , 它 是 基于 条 件 均 值 
函数 的 非 参 数 核 估 计 。 但 是 ,我 们 可 以 构造 一 个 基于 非 
条 件 矩 估计 的 一 致 检验 ,而 不 是 用 非 参 数 核 估计 方法 来 
估计 条 件 均值 ,这 就 导致 了 一 类 所 谓 的 非 平滑 检验 。. 

注意 条 件 矩 检验 的 原 假 定 :几乎 确定 E(u,lX,) 
=0, 等 价 于 对 于 所 有 的 M('. )eM,E[uM(X,)] =0, 
其 中 人 表示 一 类 有 界 的 Borel 可 测 (或 几乎 处 处 连续 ) 
函数 。 遵 循 Bierens(1982 ) ,Bierens 和 Ploberger( 1997 ) ， 
Stinchcombe 和 White( 1998 ) ,以 及 Stute(1997 ) ,考虑 下 
面 的 非 条 件 矩 检验 

Elu, KH(X,,x) ] = 0, 几 乎 所 有 yx e SC R ° 
(13.1) 

其 中 5 E X, 的 支撑 集 。 给 定 | K(X;,x) :xe S| 的 线 
性 空间 (linear span) 在 S 上 的 有 界 且 连续 函数 空间 上 是 
稠密 的 (参见 附录 的 定义 A.36) ,对 于 所 有 的 M( - ) < 
人, 等 式 (13.1) 等 价 于 条 件 E[u M(X,)] =0。 我 们 假定 
加 权 函 数 K(， ,， ) 在 SxS 上 是 有 界 的 。 在 非 参 数 统计 
文献 中 的 一 个 流行 的 对 加 权 函 数 的 选择 是 HH(X,,x) = 
1(X,<x), 这 里 的 1( ` ) 是 普通 示 性 函数 ， W, Stute 
(1997), 。 其 他 的 加 权 函 数 选择 包括 指数 函数 1(Z ,>) 
=exp(uX, x) (¿= V-1) 和 logistic 函数 H(X,x) = 1⁄ 
[1 +exp(c 一 入 x)(c 关 0); 进 一 步 的 讨论 见 Stinchcombe 
和 White(1998)。 通 过 把 式 (12.5) 中 给 出 的 条 件 矩 检验 
转化 为 式 (13. 1) 中 给 出 的 非 条 件 矩 检验 , 当 我 们 构造 这 
个 检验 时 避免 了 非 参 数 估 计 的 需要 。 因 此 ,基于 式 
(13. 1) 的 检验 减轻 了 维 数 诅 咒 的 问题 。 

一 个 可 行 的 检验 可 以 通过 用 Vn 乘 以 E[ u, H(X, 
x) ] 的 对 应 样本 值 来 获得 ,如 : 


_ 打工 < 于 
J.(x) = [T hu er u HO) 
(13.2) 
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容易 看 到 对 一 个 固定 的 x 值 ,由 Lindeberg-Levy 中 心 极限 定理 可 知 J, (x) ik 
敛 于 一 个 零 均值 有 限 方差 的 正 态 随 机 变量 。 为 了 确定 H. 是 否 成 立 , 需 要 检验 
式 (13. 1) 是 否 对 所 有 的 * 成立 。 因 此 ,为 了 获得 一 个 基于 式 (13.2) 的 一 致 检 
验 ,需要 对 所 有 的 x 考虑 J, (x) ,一 个 这 样 做 的 方法 是 所 谓 的 积分 条 件 和 矩 检验 
(一 个 Cramer-von Mises 形式 的 检验 ) ,有 如 下 形式 
CM = [J (=)°dF(x) = ||” >u, H(X, x) | dF (x) (13.3) 
通过 应 用 中 心 极限 定理 ,可 以 证 明 J,(*) 收 敛 于 一 个 零 均值 高 斯 过 程 (如 
JaC ) )。 然 后 ,通过 连续 映射 定理 可 以 证 明 CM— | J。(x)*dF(x) , 它 提供 了 
一 个 一 致 非 平滑 检验 的 基础 。 在 实际 操作 中 ,u; 是 不 可 观测 的 ,我 们 可 以 用 一 
些 一 致 估计 量 来 兰 代 。 下 面 我 们 讨论 一 些 在 文献 中 出 现 的 基于 式 (13.2) 和 
式 (13.3) 的 一 致 模型 设 定 检 验 。 


13.1 对 参数 回归 函数 形式 的 检验 


当 检 验 一 个 参数 回归 函数 的 正确 设 定时 , 即 检验 厂 : 几 乎 处 处 E(Y.1x) = 
m(x,y) ,我 们 用 = 了 , 一 m(XX,,Yo) 来 替代 ,并 且 构 造 一 个 式 (13.2) 的 可 行 的 
形式 。 这 样 ,对 于 H` 的 检验 统计 量 是 基于 

“a 1 
产 (x) = — Y M(X,,z)ú, (13.4) 
i = 


为 了 得 到 J (x) 的 渐 近 分 布 ,通常 我 们 首先 选择 一 个 范 数 ,其 中 弱 收 敛 将 被 
定义 。 普 遍 使 用 的 范 数 包括 Skorohod 范 数 ( 见 Stute ( 1997 ) ) 和 一 些 L, 范 数 。 
使 用 一 个 L, 范 数 使 得 渐 近 分 析 比 使 用 Skorohod 范 数 简 单 得 多 ,因此 我 们 将 使 


用 L, 范 数 来 建立 J,(， ) 的 弱 收 敛 。 在 13.7 节 中 我 们 证 明了 以 下 结论 : 

定理 13.1 在 一 些 标准 正则 性 条 件 下 ,j,(，. ) 弱 收敛 于 一 个 零 均 值 高 斯 过 
F JaC) ,其 具有 13.7 节 中 给 出 的 协 方差 结构 。 

利用 玉 (x) 我 们 可 以 构造 由 下 式 给 出 的 一 个 Cramer-von Mises( CM) 形式 统 
计量 来 检验 H°, 

cM: = JUF) JAF) = ES [FX) (13.5) 

Hp F, È XX, 的 经 验 分 布 。 给 定 P'( ARKAT JU (  ) ,应 用 
连续 映射 定理 (见习 题 13.2) ,得 到 CM | [JL (4)]?F(dx) ,其 中 F( ` ) E X, 
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š? 3 kg 3 N s w 3 8 


的 累积 分 布 函数 。 
正如 Bierens 和 Ploberger( 1997 ) ,Stute( 1997) 以 及 Wang( 2000 ) 中 所 述 ,我 


们 能 够 证 明 | [JS (z)]*P(dx) 可 以 写成 无 限 个 加 权 ( 独 立 的 )x 随机 变量 的 
和 ,这 里 的 权重 取决 于 (X,,Y,) 的 未 知 分 布 。 因 此 , 列 出 CM, 的 临界 值 是 不 可 能 
的 。 但 是 基于 残 差 的 原始 自 举 方法 可 以 用 来 近似 估计 CM° 的 有 限 零 分 布 的 临 
界 值 ,原始 自 举 法 的 误差 ”是 通过 一 个 两 点 分 布 生 成 的 , 即 以 概率 (1 + /5)/ 
[2V5] ,wu =[(1-V5)/2]ii; 以 概率 (V5 -1)/[2 /5],u” =[(/5 +1)/2];,ç 
利用 | | ,我们 根据 原 模型 Y” =m(X,,y》) +w” 生 成 Y"。 利 用 自 举 样本 
Y ,X,| "_, ,我 们 估计 基于 原 模型 的 y, 并 且 用 了 表示 得 到 的 估计 值 。 我 们 得 到 
自 举 残 差 =Y”-m(X,,y" ) ,并 且 通 过 用 KERT) 中 的 六 而 得 到 
J (x) 的 自 举 统 计量 。 使 用 J*( ) 我 们 可 以 计算 CM° 统计 量 的 一 个 自 举 形 
式 , 即 CMS = nY [JU (X) Is 条件 于 随机 样本 | (X,Y,)}".,, 在 ,假定 


下 ,CM，” 依 概率 和 依 分 布 收 全 于 | [ J. (x)]*。 因 此 ,CM”” 可 以 用 来 近似 CM? 


的 零 分 布 。“ 依 概率 依 分 布 收敛 "的 定义 在 式 (12.8) 中 给 出 。 

可 以 证 明 ,CM" 检验 可 以 检测 以 0,(m  ”) 的 速度 逼近 初始 模型 的 Pitman 
局 部 替代 。 平 滑 和 非 平 滑 检 验 看 上 去 是 相当 不 同 的 ,因为 它们 是 由 不 同 的 原理 
得 到 的 。 但 是 ,Fan 和 Li(2000) 证 明了 这 两 种 检验 在 实际 上 是 非常 相关 的 。 特 
别 是 ,他 们 证 明了 如 果 我 们 把 在 12 章 中 定义 的 核 检验 统计 量 厂 中 的 h, 固定 为 
一 个 常数 ,例如 h,=1(s=1,…,g) ,并 且 如 果 核 函数 w, - ) 满 足 一 些 附加 的 条 
件 , 那 么 ,大 就 变 成 一 个 非 平滑 检验 , 即 

l 


(h = 1) = rp >ú ü K(X, - X; ) (13.6) 


是 一 个 非 平 滑 检验 ,其 中 K(X, - X) = |[k(X, - X, ) 是 对 所 有 s =1,…,g 满足 


,=1 的 核 函数 的 乘积 。Fan 和 Li 证 明了 对 于 常用 的 核 函 数 ,包括 均匀 、 标 准 正 
态 、 三 角 和 Epanechnikov 核 , 厂 (h=1) 检 验 确实 是 一 个 一 致 检验 。 因 此 ,一 个 平 
滑 和 非 平 滑 检 验 的 唯一 不 同 是 前 者 使 用 减 小 的 h,( 当 nn 一 %w 时 ,h, 一 0)。 基 于 
Pitman 局 部 替代 的 分 析 说 明了 非 平滑 检验 比 平滑 检验 有 效 得 多 ,因为 前 者 可 以 
检测 以 0,(n - ) 的 速度 逼近 初始 模型 的 Pitman 局 部 替代 ,而 后 者 只 能 检测 以 
0,((n( ph) )- ) 的 速度 通 近 初始 模型 的 Pitman 局 部 替代 ,这 比 
0,(n”“) 慢 。 但 是 ,Fan 和 Li 证 明 在 高 频 局 部 替代 (Rosenblatt(1975) ) 下 ,平滑 
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检验 要 比 非 平滑 检验 更 有 功效 。Fan 和 Li 的 蒙特 卡 洛 模拟 证 明了 确实 是 这 种 
情况 (也 见 Andrews(1997) ) 。 因 此 , 非 平 滑 检 验 和 平滑 检验 互补 。 
式 (13.6) 给 出 的 非 平滑 检验 的 一 个 问题 是 它 对 于 不 同 大 小 的 数据 不 是 不 
变 的 .了 为 了 修正 这 一 问题 ,我 们 建议 使 用 
1 L AE - E. 
P( = 1) "aT > 2 ss ) (13.7) 


Xid 





HEP K(X; - X)/x,) = [|X - X.) x...) ,其 中 ,是 1X,} RE 
本 标准 差 。 


13.2 ”概率 密度 函数 的 等 价 性 检验 


我 们 在 12.2 节 中 讨论 了 两 个 未 知 的 概率 密度 函数 的 等 价 性 检验 。 原 假定 
是 H? :几乎 处 处 f(x) =g(x)。Anderson 等 (1994) 建 议 使 用 一 个 固定 的 窗 宽 h 
来 检验 Ho AK JE RITE P 中 使 用 六 = 1 ,得 到 一 个 非 平滑 检验 统计 量 
如 下 : 





六 -二 六 六 局 + 十 六 六 到- -ZSSK (13. 8) 
其 中 K = K(X, -x)= =K(Y, - Y,) ,K'” =K(X,-Y)。 fE n, #ll n, — = 和 
mx 偏离 零 并 趋 于 无 穷 的 假定 下 ,Anderson 等 人 证 明了 TT, =n 
[H - (F tae O KUFA v 分 布 的 无 穷 项 和 。 自 举 形式 的 几 可 
以 如 13. 1 节 ( 对 所 有 的 ]=1,…,g, 都 有 访 =1) 中 同样 的 形式 产生 。 用 ”表示 
得 到 的 J 的 自 举 形式 。 自 举 统计 量 是 ru =m [J - (5+ i)e (0)"] ,并 且 
自 举 统计 量 的 经 验 分 布 可 以 用 来 通 近 T 的 零 分 布 。 并 且 , 实 际 上 ,我 们 可 能 希 


望 用 K((X; - X.) /y,) REAR K; =K(X, - X,) ,用 K((Y, 一 了 )/yw) 来 替代 Ki, 用 KK 
(X,/x*,, =Y Ya) KER K ,来 使 得 对 于 不 同 的 数据 大 小 的 检验 都 是 始终 如 一 的 。 


Q 可 直接 使 用 ,比如 说 h=n-'“ 与 4=xwn-'“( 其 中 x 是 |xi1?-, 的 样本 标准 差 ) 相 比 ,后 者 更 受 
欢迎 ,因为 它 关 于 x 的 度量 ( 即 标准 差 ) 是 不 变 的 。 
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13.3 非 参 数 显 著 性 检验 


接 下 来 , 原 假定 与 第 12 章 中 讨论 的 H° 相同 , 即 H :几乎 处 处 E(Y,1w,z) = 
r(w) ,其 中 rw) =E(Y lw), X u, = (Y, —r(W,))/(X,)(x=(u,z)). X, 
与 E(u,1X,) =0 等 价 。 这 样 ,我 们 可 以 构造 一 个 基于 (x) = n" u, 
MX(X ,zx) 的 检验 统计 量 。Chen 和 Fan(1999 ) 使 用 了 一 个 平滑 加 权 函 数 X(X ， 
x) ,Delgado 和 Manteiga (2001 ) 采 用 的 是 (X;,x) =1(X,<x)。 为 了 得 到 一 个 可 
行 的 检验 统计 量 , 我 们 可 以 使 用 核 估 计量 7?(X,) = n Y YK, f. W.) 和 


aW) = n Y YKn, a REAR r( W.) Rl f.( W,) ,得 到 : 
J (z) = L Ya fO.) M(X,,a) (13.9) 
Herp ú f(X) = (Y, - (W,))/f.(W,), Chen 和 Fan {E T L, 范 数 ,而 Delgado 
和 Manteiga 使 用 的 是 Skorohod 范 数 ,可 以 证 明 无 论 是 瑟 范 数 还 是 Skorohod 范 
BTO ) 在 所 下 都 收敛 于 一 个 零 均 值 高 斯 过 程 。 
EEO ) 检 验 是 一 个 不 完全 的 非 平滑 检验 ,因为 还 需要 平滑 原 模型 来 获 
u MACO ) 的 一 致 估计 。 但 是 与 第 12 章 中 考虑 的 平滑 检验 I RE, CRE 


滑 对 立 模 型 。 因 此 , 它 减 轻 了 维 数 诅咒 问题 。 一 个 CM 形式 的 统计 量 由 下 式 
给 出 : 


cM: = [[ G) JF, (de) = +S ÄT (13. 10) 
CM“ 的 自 举 形式 由 下 式 给 出 : 
CM = ESj) (13.11) 


其 中 几 (X) = nY à’ H(X,,X.), i =Y; -°° (W,), Y’ =° (W,) +u”, 
(W) = nY Y K... /f.(W,), 3E B u` JH ü, = Y, — m ( W, ) p #E A 


始 自 举 误差 。Delgado 和 Manteiga( 2001 ) 证 明了 自 举 方法 在 中 等 样本 大 小 的 背 
景 下 表现 很 好 。 


13.4 条 件 累 积分 布 图 数 的 Andrews 检验 


Andrews( 1997 ) 提出 了 一 个 非 平滑 检验 来 检验 一 个 参数 条 件 累 积分 布 函 数 
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的 正确 设 定 。Andrews 把 他 的 方法 叫 作 条 件 Kolmogorov ( CK) 8030, $ f(ylx,0) 

代表 参数 条 件 概率 密度 函数 。 参 数 条 件 累积 分 布 函数 由 下 式 给 出 ; 
F(ylx,0) = [1Cv <) rls,0) da (e) (13.12) 
403 ”其 中 dulv) = 由 并且 了 是 一 个 连续 变量 ,而 当 了 是 离散 变量 时 令 Qi 表示 了 的 值 
域 , 则 | du(v) X 。Y 也 可 以 由 连续 和 离散 值 混合 组 成 。 令 H( : | * ) 表 示 


veD, 


对 于 给 定 X, F Y, 的 条 件 累积 分 布 函 数 , 令 G( : ) 表 示 革 ;的 边际 累积 分 布 函 
数 。 原 假定 是 

H :H(yl x) = F(yl x,0)a.e. (in(y,x)) $0 e @ (13.13) 
其 中 @ 是 R* 上 的 一 个 紧 子 集 。 令 A, (2) 表示 Z, = (X,,Y,) ,i<n 的 经 验 累积 分 
布 函 数 。 即 


Ptuja Ly (Z, < O) (13.14) 
D Ê (x) 82 X, isn 的 经 验 累 积分 布 函 数 , 即 


Ê (z) a LF < k) (13.15) 


S 6 表示 一 个 基于 原 模型 的 9 的 估计 量 , 令 F(z,0) 表示 基于 参数 条 件 累 
积分 布 函数 F(. 1. ,9) 和 经 验 累 积分 布 函数 G, O ) , |2,,i<n| 的 半 参 数 / 半 
经 验 累 积分 布 函数 表示 如 下 : 

Ê (2,6) -LY ry X,,0)1(X, < x) (13.16) 

Andrews(1997 ) 提出 了 下 面 的 CK 检验 统计 量 : 

CK, = Vn max | B.(Z,) - F.(Z;,0) | 


lsj<n 


= max 人 OR FY — F(Y. ED w X 1 (3 tl) 
Nn ft 


Andrews( 1997) 证 明了 CK, 的 渐 近 分 布 是 宛 余 参数 依赖 的 , 它 依赖 于 9, 和 
G( - )。 结 果 ,CK, 的 渐 近 临界 值 不 能 被 列 出 。Andrews 建议 使 用 下 面 的 参数 
自 举 过 程 来 获得 CK, 的 临界 值 : 
(i) 对 于 i=1,…,n, 根 据 参数 条 件 概率 密度 函数 /(Y,1X,,0) (或 F(Y.1X,， 
0)) FE Y; , 
(ii) 计算 自 举 检验 量 CK; ,这 里 的 CK; 除了 在 CK, 中 的 Y, 被 替代 成 了 
Y? 之 外 与 CK, 是 一 样 的 。 
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Gii) 重复 (i) 和 (让) 多 次 ,比如 B =399 次 ,并 得 到 |CK | ;的 经 验 分 布 ， 
它 可 以 用 来 获得 CK, 的 临界 值 。 

Andrews( 1997) 为 上 述 的 自 举 过 程 和 模拟 报告 提供 了 辩护 ,他 证 明了 参数 
自 举 方法 在 有 限 样本 背景 中 表现 良好 。 


13.5 序列 相关 的 Hong 检验 


Hong( 1999 ) 提 出 了 一 类 可 以 用 于 检验 各 种 形式 的 序列 相关 的 广义 谱 检 验 。 

令 |X,| 为 一 个 严格 平稳 过 程 ,有 一 个 边际 特征 函数 olu) = E( e": ) 和 配对 联合 

WIER p (u,v) = E[e -0], 其 中 i=V-l,uve(-%,%), 且 j=0， 
+ 上 1,… 定 义 转换 变量 e”… 和 e ”2 之 间 的 协 方差 函数 为 ; 

og,(u,v) = cov( e eu) (13.18) 

可 以 直接 证 明 ol(u, v) =$ (u,v) -gg(u)g$(v)。 因 为 当 且 仅 当 和 AX, y 

独立 时 ,对 所 有 的 uv 都 有 由 (u,v) = 四 (4)g(v),o,(u,v) 可 以 捕捉 到 X, 和 


,_ii 之 间 任 何 类 型 的 (序列 ) 相 关 性 。 假 定 we st emmy 2, | o(u,v)| <o， 
则 oj,(wu,v) 的 传 里 叶 变 换 存在 , 即 
f(w,u,v) = a È ou)”, w e [-rn,r] (13.19) 


/(w,u,v) 包 含 了 在 1X,| 的 所 有 滞后 项 中 所 有 成 对 的 序列 相关 的 信息 。 因 
此 ,可 以 构造 基于 所 ) 的 用 于 检验 各 种 形式 的 序列 相关 的 检验 统计 量 。 
Hong(1999 ,定理 1) 证 明了 f(w,u,v) 可 以 通过 下 式 被 一 致 估计 : 


f(w,u,v) = 二 k(j/p)o (uv)e™ (13. 20) 
其 中 ó (u,v) = 由 (az) -ġ(u,0)ġ(0,v), H $, (u, s) = 
(n -1j1)”》 e ”rm 是 经 验 (成 对 的 ) 特 征 函数 ,p = p. 是 窗 宽 或 滞后 阶 


r= lj +l 


Ë. J3EB k( - ) 是 一 个 核 函 数 。p( 即 最 小 化 A( ) 的 积分 均 方 误差 ) 的 最 优选 择 
取决 于 所， ) 的 平滑 度 和 大 的 选择 。 对 于 Bartlet 核 ,p 一 n'” ;对 于 Daniell 和 
Parzen 核 ,p ~ n” Hong 也 提出 了 一 个 选择 最 优 p 值 的 数据 驱动 方法 。 注 意 
Daniell 核 是 由 有 (z) =sin(nz)/nz,ze ( -œ œ ) 给 出 的 。 

如 果 |X,| 是 一 个 独立 同 分 布 序 列 , 则 对 于 所 有 的 1j1 宇 1, 有 c (u,e) =0。 
所 以 ,fA(w,u,v) 是 一 个 在 w 上 的 常数 函数 : 


fw (wu,v) = zo, (u,v), 2 E[-TT] 
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这 样 ,可 以 通过 比较 式 (13. 20) HELM A Cw, u,v) M fo (w, u,v) = 元 


go(u,v)( 见 下 面 定义 的 M(0,0) 检 验 ) 来 检验 序列 相关 。 如 果 独 立 同 分 布 假定 


被 拒绝 ,可 以 通过 比较 如 下 式 给 出 的 f(w,wu,v) 和 fo (w,u,v) 的 导数 估计 量 进 
一 步 检 验 序列 相关 的 其 他 特定 形式 。 
fem) (wu,v) = ENE - LIL) ksp” (uo) (13.21) 


fo (wu,v) = A” (uv) (13.22) 


其 中 0i” (u,v) =0"*'g (u,v)/8"ud'v, RA m,1>0, 
Hong( 1999) fth T —28 3 h FRA B 09 AO” (w,u,v) 和 ff (w,u,v) 
之 间 的 加 权 积分 平方 差 的 检验 : 
J. | AOD i u 0) — 0 ue) l dwd, (a)àW,(s) 


(0) 
2 n=l f a A 
. TA K (jp) (1 i +)! ¿"D (u,v) 1°dW,Cu)dW, (v) 


(13.23) 
这 里 的 等 式 遵循 Parseval FR, HP W, <) A W,( > ) Jë F I8l 39 Ne 09 JN 
函数 。 
检验 统计 量 是 上 面 的 二 次 形式 的 标准 化 形式 : 


M(m,!) =-[ [Sep) (On - j) 1 á" (u,v) 1°AW, (u) dW, (v) 


- G" S PG/p)] (13.24) 
其 中 W,( - )#l W,( - ) 是 被 选择 的 加 权 函 数 ， 
eA 5 Jee, Ç u)dW,(u) s“ (e, - v)dW,(v) 


0 
Al 2 =2 x fi ó (s.s) l'dW (u)dW,(u ) 


x fi On (v,v') 1°dW, (v)dW,(v') 


对 于 给 定 的 (m,1) ,M(m,!) 在 序列 无 关 的 原 假定 下 渐 近 ( 单 边 )N(0,1)。 

常用 的 假定 包括 选择 (m,!) = (0,0) 来 检验 序列 相关 的 任意 形式 。 如 果 拒 
绝 一 般 序列 无 关 的 原 假定 ,人 们 可 以 继续 检验 序列 相关 的 特定 形式 。 例 如 , 选 
择 (m,l) = (1,0) 检 验 原 假 定 E(X,1X,_;) =E(X,), 所 有 j>0, 这 被 称 为 鞠 差 分 
(martingale differences) 的 检验 。 类 似 地 ,对 于 1=1,2,3,4 的 (m,!) = (1,/) 检 验 
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是 否 对 于 所 有 的 了 >0 都 有 cov( Y,, Y.) =0, 它 分 别 检验 均值 的 线性 性 、 均 值 的 
ARCH 效应 ,均值 偏 度 和 均值 峰 度 效 应 。 下 面 我 们 提供 了 更 多 关于 上 面 式 
(13.24) 给 出 的 对 于 (m,1) =(0,0) 和 (m,l) = (1,0) 的 一 般 M(m,1) 统 计量 的 
应 用 细节 。 

由 于 (m,1) = (0,0) ,Hong(1999 ) 建 议 选 择 W(，)=W,(*)=W(*)， 
其 中 W,(， ) 是 标准 正 态 随 机 变量 的 累积 分 布 函 数 。 

那么 ,可 以 证 明 : 407 


M(0,0) = {f| Y PG) (n - j) 1 ¿¿(u,e) 1? | aW, Cu) dw (v) 
= GON 5e (j/p) Ka (13.25) 
Jep CO = | fóu, - u)aw,G0a) ] B 


2 #-2 
Sio = 2 [fi ô, (u,v) ?dW (u) dW, (v) | > k‘ (j/p) 


为 了 检验 (m,!) = (1,0) HE4 , Hong( 1999) ÆRE W,( <) =ó( -), 
8( - )28 Dirac ó 函数 ( 见 附录 中 的 定义 A. 15), HP W,( +) =W) W 


m1,0) = {J [ FG- |e "(0,0) | Jamo) 


-600 Y P (j/p) WEZ (13.26) 


j=l 


其 中 


0 


goa =Ř, o fős (u, - u)dW,(u) 








2 n-2 1/2 
d (u,u) dW, (u) > k‘ (jp) ] 


san [ËJ 
po =(n - j) "yx [e = $, (0,v) ] 


R; = (n - j) " ` [X, -XOX - X, G) ] 


t=j+ 


XG) =(n - j) ' X, 


t=j+l 


X,G) =(w-j) "Y X,, 


t=j+l 


Hong 和 Lee ( 2003 ) 推荐 使 用 自 举 法 来 更 好 地 逼近 检验 统计 量 M(m,/) 的 ”408 
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x s s S = S i 33 # 


有 限 样本 零 分 布 。 令 履 ,为 基于 原始 样本 |X,| "的 统计 量 ,M” ,为 使 用 自 举 法 
样本 | 和 |” ,的 统计 量 。MW。, 的 自 举 法 尸 值 可 由 pe = B'' > (M, > Mn) 近 


似 得 到 ,其 中 B 为 自 举 法 重复 次 数 且 1(， ) 为 示 性 函数 。 检 验 独 立 同 分 布 的 原 
假定 ((m,L) =(0,0) ) ,可 使 用 朴素 (重新 取样 ) 自 举 法 ;对 于 款 差 分 的 原 假 定 可 
使 用 原始 自 举 法 检验 ,原始 自 举 法 以 概率 r 取 六 = aY, ,以 概率 1-r 取 六 =(1- 
a)Y, 而 a=(1 +45)/2,r = a/V5。 Hong 和 Lee 证 明了 当 样 本 大 小 为 n = 100 
时 , 自 举 法 表现 良好 。 

Hong 和 Lee(2003 ) 采 用 了 Hong(1999 ) 的 对 于 不 同 (m,/) 的 值 的 广义 谱 检 
验 ; 在 不 同 的 ( 普 , 坟 值 的 情况 下 对 W. ( : ) 和 及 (…) 的 相应 选择 见 Hong 和 Li 
的 表 1。Hong 和 Lee 对 加 拿 大 德国、 美国 \ 日 本 和 法 国 的 日 汇率 数据 进行 了 检 
验 。 一 般 发 现 是 五 个 汇率 表现 出 较 强 的 序列 相关 性 (拒绝 原 假定 情形 (m,/) = 
(0,0) ) ,而 这 些 汇率 的 变化 通常 是 序列 不 相关 的 ( 即 无 法 拒绝 原 假定 (mm,1) = 
(1,1) ) ,但 是 它们 明显 不 是 蒜 差 分 过 程 (拒绝 原 假 定 (m,1) = (1,0))。 他 们 的 
结论 表明 可 以 预测 汇率 变化 的 平均 值 。 他 们 进一步 使 用 不 同 的 非 线性 时 间 序 
列 模型 来 预测 汇率 的 变化 ,并 且 发 现 将 几 个 不 同 预测 模型 组 合 在 一 起 的 方法 可 
以 得 到 最 好 的 预测 。 


13.6 更 多 的 非 平滑 检验 


原则 上 ,所 有 一 致 模型 设 定 检验 都 可 以 使 用 非 平滑 方法 来 构造 。 例 如 ,Del- 
gado(1993 ) 提出 了 对 两 个 非 参数 回归 曲线 是 否 相 同 的 非 平 滑 检验 ,Bai 和 Ng 
(2001) 考虑 了 一 个 关于 条 件 对 称 性 的 非 平 滑 检验 ,Fan(1994 ) 提出 了 一 个 参数 
概率 密度 函数 的 非 平滑 检验 ,Fan 和 Gencay(1995 ) 提出 了 一 个 线性 回归 模型 对 
称 性 的 一 致 性 检验 。 


13.7 证 明 


13.7.1 定理 13.1 的 证 明 


我 们 首先 给 出 一 个 引 理 。 
引 理 13.1 $ Z>), ) 为 L, 空间 (一 个 Hilbert 空间 ) 里 的 独立 


同 分 布 零 均值 随机 元 素 ,有 范 数 Z) ?= | 12.(x) ?dz(x) ,其 中 在 X, 的 


第 13 章 ” 非 平 滑 检验 


> 如 Ñ 六 w š 站 多 # 


支撑 集 S 上 ,v(， ) j — 4 f W F. wE E[1Z (+) 11] < =, W 
ma YZ C) Sket FOP ER JEER Orr’) = E[ Z, (x) 


2Z,(x* )] 给 出 。 

证 明 : 见 Politis 和 Romano ( 1994 ) 的 定理 2. 1 ,或 者 参见 van der Vaart 和 
Wellner(1996 ,ex. 1.8.5, p.50), BE E[ | Z- ) 12] < % 是 保证 过 程 
nm > Zi 人 .) 紧 致 的 一 个 充分 条 件 。 

为 了 证 明定 理 13. 1 ,我 们 首先 有 式 子 : 

nm S ZC) = n S ú, H(X,, +) 
Hp ú, =Y, —m(X,,y)o WE y E y 的 非 线性 最 小 二 乘 估计 值 。 令 mi” = 
[əm(X,,y)/əy]], =y BH y -yo = 0,(n !) BJ 3k 3k 48 Talor 级 数 展开 ， 
RH ú, =Y, -m(X,,y,) -m (y - y) +0,(n )。 同 时 ,根据 非 线性 最 小 二 
乘 理论 我 们 知道 
o= [E mm = Fn” u, +0,(n` ) 
= [E| m m] miu + 0,(n-!) (13.27) 
*B=F|[|m m” |, (X, ) = 下 [mm HCX, >) |Bm” ,我 们 有 410 
EC) = n rki H(X...) 
=n" Y ú HX) + [n E m” HAX.) |P |a E mu] +0,0) 
= "Di HCX.) +E|[m M(X, .) Js[n 25 miu, | + 0. (n 28) 
= n D HCX, ) + p(X,.) lu; 
=n" 5 Z(-) +0, (n°?) 
HPZ) =[XH(X,,* ) +(X, ` )]u,, RAAH ELIZ.) |] < = 
(见习 题 13. 1) 。 因 此 ,由 引 理 13.1 可 知 S ) 收 剑 于 一 个 零 均 值 高 斯 过 程 ， 


其 协 方差 结构 由 Q(x,x ) =E[Z,(x)Z,(x')] 给 出 ,其 中 2Z,(x) =[M(X,,x) + 
$(X,, ` ) ju,o 口 
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13.8 习 W 


习题 13.1 í Z, ')=[M(X,, *) +(X, ` )]u,, WEH EL | Z) || 2] < 
习题 13.2 ”由 定理 13. 1 ,我 们 知道 站 (， ) 收 敛 于 三 (* ) ,并 且 由 连续 映 
射 定理 ( 见 附录 A) ,我 们 知道 : 


[ze] ao = [2 o) ] do (13.28) 
在 F( - ) 关 于 > 绝对 连续 的 假定 下 , 式 (13. 28) 意 味 着 (以 F(，) 取 代 v): 
[oo] des) = [IJ (=) 2aF(a) (13.29) 

411 证 明 (dF,(… )XP dF( - )): 


Je) | aF.) - [[ (x) dF (x) = o,(1) (13.30) 
注意 式 (13. 29) 和 式 (13. 30) 意 味 着 
cue= f [j ] ar 


= [Ew | ar) + 0,(1) 
一 [|z oe) ] AFC) 依 分 布 收 全 
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第 4 部 分 非 参 数 近 邻 和 
序列 方法 


[m] [s] [m] [m] [=] 回 m) [m] [m] [m 回 [=] 


第 14 章 大 近邻 估计 方法 


我 们 将 在 第 15 章 研 究 非 参数 序列 估计 , 它 构成 了 本 
书 的 核心 部 分 非 参 数 核 方 法 的 一 个 替代 。 在 这 一 章 中 ， 
我 们 考虑 另 一 个 选择 , 称 为 近邻 估计 , 它 也 被 广泛 使 用 ， 
是 已 有 的 非 参数 方法 的 一 种 。 

使 用 近邻 估计 的 主要 好 处 在 于 它 能 够 自动 适应 可 
用 的 局 部 信息 的 数量 。 也 就 是 说 ,局 部 信息 量 越 大 , 平 
滑 发 生 的 区 域 越 小 。 许 多 现 有 的 文献 表明 ,不 变 窗 宽 估 
计 并 不 具有 这 个 特点 。 但 是 ,k 近邻 估计 方法 (k-nearest 
neighbor method ,以 下 简称 “k-nn”) 也 有 一 些 相 对 于 核 方 
法 的 缺点 。 例 如 ,k-nn 方法 不 具有 完全 平滑 掉 非 相关 变 
量 的 能 力 。 因 此 ,k-nn 方法 应 该 被 看 成 是 我 们 在 前 面 的 
章节 看 到 的 流行 的 核 估 计 方 法 的 一 个 补充 。 


14.1 密度 估计 :一 元 情形 


在 式 (1.6) 中 定义 的 均匀 核 估 计量 使 用 落 在 区 间 
[x 一 h,x+hj] 内 的 观测 值 来 估计 扩 x*)。 这 个 估计 量 的 特 
点 之 一 是 采用 固定 平滑 参数 h, 也 就 是 说 h 是 一 个 常数 
且 与 x 不 相关 。 对 于 给 定 的 点 x, 当 f(x) 较 大 时 , 则 比 
用 x) 较 小 时 有 更 多 的 数据 落 在 区 间 [x-h,x+h] 内 。 比 
如 说 ,在 分 布 的 尾部 有 相当 少 的 数据 落 在 区 间 [x o- h, 
x+h] 内 。 但 是 ,不 变 窗 宽 的 使 用 可 能 导致 在 数据 支撑 
集 的 一 些 范 围 内 过 度 平滑 而 在 其 他 地 方 平滑 不 足 , 比 如 
在 分 布 的 尾部 。 

一 个 可 供 选择 的 非 参 数 估计 量 , 称 为 近邻 密度 估计 
量 , 可 以 用 来 规避 这 个 问题 。 不 是 使 用 一 个 不 变 的 窗 
宽 , 其 中 落 在 区 间 [x -h,x+h] 内 的 可 观察 数据 数目 会 
变化 ,一 个 简单 的 近邻 方法 使 用 位 于 x 附近 的 上 个 观测 
值 来 估计 fx) ,其 中 是 一 个 固定 的 整数 。 也 就 是 说 ， 
这 个 简单 的 估计 量 使 用 一 个 随 % 变动 的 窗 宽 ,而 不 是 保 
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w R = š = e w $š 并 


持 用 于 构造 密度 估计 的 观测 数目 不 变 。 这 种 方法 的 优点 之 一 是 其 局 部 适应 性 。 
也 就 是 说 ,如 果 f(x) 值 小 ,间隔 将 会 变 大 ,反之 亦 然 。 不 变 窗 宽 核 方法 没有 具备 
这 样 的 性 质 。 

核 估 计量 和 k-nn 估计 量 的 一 个 不 同 点 是 公式 (14. 12) 定 义 的 窗 宽 R, 现在 
是 随机 的 。 因 此 ,k-nn 估计 量 的 渐 近 分 析 要 比 不 变 窗 宽 核 估计 量 的 渐 近 分 析 
复杂 。 

设 ,3 ,为 独立 同 分 布 的 随机 观测 值 ,它们 的 有 界 连续 密度 函数 为 
f(x*)。k-nn 估计 量 最 简单 的 形式 是 使 用 有 个 ( 离 x) 最 邻近 的 观测 值 来 估计 。 当 
x 为 g 维 向 量 时 ,我 们 将 使 用 欧 几 里 得 距离 来 衡量 数据 点 之 间 的 距离 。 

定义 14.1 ÇR, =R, (x) RRE x, PH x A x 的 第 个 近邻 点 之 间 的 欧 
几 里 得 距离 。 

因为 R. = R(x) 依 束 于 n, 为 了 记号 的 简洁 ,我 们 将 隐藏 记号 no XH x 的 一 
个 固定 值 ,一 个 简单 的 k-nn 估计 量 可 以 给 出 为 : 

> 本 _ k 

P ap = TRACIA R 5 1) = 2nR(x) i 
JehB1( - ) 为 通常 的 示 性 函数 ,其 保证 了 只 有 最 邻近 x 的 个 观测 值 可 用 于 估 
iF f(x), 

为 了 得 到 f(x) 的 一 致 估计 量 , 我 们 需要 选择 =k(n) ,使 得 当 n 一 % 时 ,有 
k— H. k/n—0, XE ,k/n 起 的 作用 类 似 于 核 估计 量 的 固定 平滑 参数 hh。 条件 
k— = 和 k/n 一 0 对 应 于 核 估 计 里 的 nh 一 w H ho, 

对 于 多 元 估计 ,x e R" ,我 们 将 使 用 ` 定义 欧 几 里 得 范 数 , 即 

lx- = V (xı -Ku * w + (x, -Xa 
因此 ,一 个 简单 的 k-nn 密度 估计 量 由 下 式 给 出 : 
Z ipl lx- X| oaj 
fO) = 58, -a ss <1)= (14. 2) 


q 
conR 





Joh a =a /|r[s22)] ER" 里 单位 球 的 体积 。T(。 ) 是 由 F(a) = 


[ edt ELH T 函数 。 通 过 T(z+1) =zT(z) ,TT(1/2) = JTA PO) =1， 
对 任何 正 整 数值 9, 可 以 很 容易 地 算出 coo 

当 加 权 函 数 在 球体 边界 不 连续 时 ,在 式 (14. 2) 中 定义 的 (x) 赋予 落 在 球 
体 上 XX-x|| 寺 R(x) 内 的 观测 值 相 同 的 权重 (1/eo) ,而 球体 外 的 观测 值 权重 为 
0。 连 续 的 加 权 函 数 也 可 以 使 用 ,例如 标准 正 态 概 率 密度 函数 , 即 w(v) = 


(27) e 15122 AER | o 增加 时 ,加 权 函 数 w(v) 单 调 递 减 。 使 用 一 个 一 
般 的 加 权 函 数 w( . ) ,可 以 通过 下 式 来 估计 f(x): 


第 14 章 下 近邻 估计 方法 


Xa) = -L5 vf -Zl 
Ka) = aa i ) (14.3) 


Hep wl- ) 是 有 界 、 对 称 、 非 负 的 积分 加 权 函 数 ， 
wv) do Si 
4 ao ( + ) 为 均匀 概率 密度 函数 ( 即 如 果 |‖ o | S1, wv) =1veco; 如 果 
ll >1,w(v) =0) 时 ,在 式 (14.3) 中 给 出 的 f(x) 退 化 为 式 (14.2) 中 定义 的 


f (x) ,为 了 简化 下 面 的 推导 ,我 们 施加 约束 , 上 vl 二 1 时 ,w(v) =0。 
假定 14.1 zw( . ) 是 一 个 有 界 、 对 称 、 非 负 函 数 ,对 于 vl 三 1 有 w(v) =0， 


fewa še 1, fw(v) wa = Kal, , |) do = K, fw? Cv) vw'd = K>xl,, 1, 是 g 维 


单位 矩阵 ,kz kz 都 是 有 限 的 正常 数 。 
接 下 来 ,我 们 对 f(x) 和 上 施加 一 些 温和 的 条 件 。 
假定 14.2 
(i) Ax) 二 阶 可 微 。 
(ii) 当 m 一 o BF ,k— o H k/n—0, 
定理 14.1 在 假定 14.1 A 14.2 条件 下 ,我 们 有 
è citr[ f” (x)] 
(i) bias(f(x)) = 
cf (x)° 
k 


(如 +o G) 


(ii) var(f (x)) = +o(1/k) 


其 中 c = (1⁄2) ke", K = fw (r) dv, v, A v 的 第 ;个 分 量 ， 


ë, = é, [fw (wa | ” 


对 定理 14. 1 的 证 明 在 14.9 节 给 出 。 

对 比 定理 14.1 与 式 (1.13) \ 式 (1. 14) 的 结果 ,可 以 观察 到 (kan) “相当 于 
岂 x) 的 核 估 计量 中 使 用 的 窗 宽 (或 者 (En) 一 必 )。 很 容易 看 到 平衡 平方 误差 
和 方差 的 的 最 优 速度 为 0(n”““*”) 阶 。 如 果 我 们 采用 的 这 个 最 优 阶 , 则 由 
定理 14. 1 我 们 立即 有 


MSE(f(x)) = 


n 


+ (s.o. ) 


[e,tr (f (s) ) ]° 
[/(s) ] “° ( 

= O((k/n)*% + (1/k)) (14.4) 

对 于 第 1 章 概 述 的 核 密度 估计 ,误差 项 为 0( 刀 ), 它 不 依赖 于 g K x 的 维 

Es MAÉ Ol (nh) "') 依 束 于 g, 所 以 导致 了 核 估 计 的 维 数 诅咒 。 但 是 ,k-nn 


二 有 
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88 D z = 2 8 s l m 


方法 的 结论 是 不 同 的 ,因为 方差 项 为 0(1/k) ,其 不 依赖 于 q, 而 误差 项 为 
O((k/n)'%*) ,也 不 依赖 于 q, EÆ q GUE T HEROE. 

可 以 看 到 在 偏 误 项 分 母 中 包含 了 f(x)”“, 因 此 ,在 分 布 的 尾部 f(x) 的 值 较 
小 ,平方 偏 误 将 是 均 方 误差 的 重要 成 分 。 

Mack 和 Rosenblatt(1979) 建 立 了 以 下 关于 f(x) 的 浙 近 正 态 结论 。 

定理 14.2 除了 假定 14.1 之 外 ,还 假定 f(x) 三 阶 可 微 , 并 且 当 n 一 % 时 ， 
k'? (k/n) 一 0 , 则 我 们 有 

e tr[ f” (x) ] 


k'i f(x) - flx) - (k/n)* 
(A -As) - any Sim 


核 密度 估计 和 k-nn 密度 估计 之 间 关 系 的 一 个 优秀 的 综述 可 以 参见 Mack 
和 Rosenblatt( 1979 ,pp. 13 一 14) 。 

k-nn 方法 的 一 个 问题 是 它们 对 称 地 处 理 所 有 的 成 分 。 为 了 理解 这 一 点 , 考 
虑 g =2 的 情况 。 如 果 X, 的 数据 范围 (支撑 集 ) 远 远大 于 X, W I| X -x || < R. 
可 能 包含 了 大 部 分 有 相同 的 X, 和 zx, 但 和 ,和 x%*, 不 同 的 点 ,这 是 不 理想 的 。 在 
实践 中 ,我 们 可 以 先 对 数据 进行 标准 化 。 使 每 一 个 成 分 都 具有 样本 均值 零 和 样 
本 单位 方差 (例如 , (XX, -x,)/sd(XX,)), 或 者 对 每 个 变量 进行 标准 化 从 而 使 它 
们 的 取 值 在 0 和 1 ZM, Aan, (X, - min,X,,) /( max,X,, — miniXi)。 后 一 种 转变 
方法 根据 数据 成 分 的 范围 使 数据 相对 称 , 与 基于 没有 转变 的 数据 相 比 ,将 导致 
更 好 的 有 限 样本 的 表现 。 但 是 ,这 仍然 没有 解决 x, 潜在 地 对 f(x) 有 不 同 影响 
的 问题 。 比 方 说 ,f(x) 对 于 x, 是 相对 平稳 的 ,而 随 着 * 的 变化 而 变动 剧烈 。 理 想 
地 ,对 于 每 一 个 变量 x, ,应 该 采用 不 同 的 ,我们 将 在 14. 8 节 讨论 这 种 可 能 性 。 


14.2 回归 函数 的 估计 


给 定 下 面 的 非 参 数 回归 模型 : 
Y, = g(X,) + u, (14.6) 
我 们 可 以 通过 下 式 使 用 k-nn 方法 来 估计 回归 函数 g(x) =E(YIx): 
wp ro 
g(x) = aaa ki airs TA (14.7) 
4、-1 x — X, 
(六 直人 
注意 由 于 当 加 权 函 数 乘 以 一 个 正 的 常数 不 改变 其 回归 估计 值 时 ,假定 式 
(14. 1) 中 的 |w(v)d =i FIWA i fw(v) do = a > 0 取代 。 


接 下 来 的 定理 给 出 了 g(x) 的 偏 误 首 项 和 方差 首 项 。 


) NO, ef’ Cs)) (14.5) 
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定理 14.3 除了 假定 14.1 和 14.2 之 外 ,还 假定 g(x) 二 阶 可 微 ,那么 我 
们 有 
ve 2g (a) f (z) +f(x)trlge (x)] 
f (|) 7 
+o(k'!'2) + o((k/n)*%) 


co (x) 
k 


bias(g(x)) = “(=) 


var(g(x)) = +o(k'') 


其 中 c, = ka/[2cv] K = fw) dv,e =ef | wi Cv) go] " 
证 明 过 程 参 见 Mack( 1981), 
对 比 定理 14.3 和 定理 2. 2 ,我 们 再 一 次 看 到 (ivn) “对 应 于 g(x) 核 估计 量 
ñ h (Ë. 
定理 14.3 意味 着 均 方 误差 收敛 速度 为 
MSE(&(x)) = [bias(6(z))]? + var(é(x)) = 0((£) +) 


(14.8) 
Mack(1981 ) 也 建立 了 以 下 的 渐 近 正 态 结果 : 
定理 14.4 除了 假定 14.1 和 14. 2 之 外 ,还 假定 g(*) 三 阶 可 微 , 当 n— = 
时 ,大 (k/n) “一 0, 则 我 们 有 
k'? (g(x) - g(x) - (k/n)™”"B,(x)) SN(0,c0’(x)) (14.9) 
其 中 B(x) =cs12g' (2) f (2) +g(z)tr[f2)(s)]17[/(a)9*02], 
如 之 前 提 到 的 ,对 于 多 维 变量 工 不 能 直接 对 原始 数据 采用 k-nn 估计 。 这 
是 因为 x 的 不 同 成 分 的 值 域 一 般 是 不 同 的 。 一 个 普遍 的 做 法 是 先 对 已 ,进行 标 
准 化 ,比方 说 ,有 和 零 均 值 和 单位 标准 差 使 得 所 有 XX, 具有 可 比较 的 值 域 。 接 下 来 
对 标准 化 了 的 变量 应 用 欧 几 里 得 距离 得 到 k-nn 平滑 参数 。 


14.3 局 部 线性 k-nn 估计 


在 这 一 节 我 们 考虑 这 样 的 问题 ,使 用 局 部 线性 k-nn 方法 来 估计 一 个 未 知 回 

归 函 数 。 考 虑 非 参数 回归 模型 
Y, = g(X,) +ü, i= ln (14.10) 
HPX e R ' ,我 们 感 兴趣 的 是 估计 未 知 函 数 g(*) 和 它 的 导数 ,8B(x) 兰 ag(xz)/ 
alx) =g (z), @ (z) =(g(z),(8(x))' ) 。 使 用 Talor 级 数 对 g(X,) 关 于 x 
进行 展开 ,我 们 得 到 g(X,) =g(x) + (X, -x) B(x) +T(X,,x) ,其 中 T(X,,x) = 
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š z @ 3 EY Ñ X ¥ 


g(X,) -g(x)- (X, —x) B(z), KA, RNIT AR 
Y. = (1,(X, -— x)”)6(x) + T(X,,x) + u, (14.11) 


令 w( ` HAR ARR BM | e | =1 时 ,有 | o()d=l,w(z) = 


0。 对 6(x) 的 局 部 线性 k-nn 估计 可 以 由 5(x) 给 出 : 
1 (X, - xz)' 


; ; Ë 1 
EN | Zeur -ën A 2 _ |) 3w y, al” 


(14.12) 

其 中 ,w;, =w( (X, -x)/R,) 。 

我 们 给 出 以 下 假定 。 

假定 14.3 (X, Y,) 独立 同 分 布 ,u; =Y, -zg(X,) ,E(w ) 是 有 限 的 。g(x) 和 
f(x) 都 是 直到 三 阶 可 微 , 且 o (x) =E(w 1X,=%) 在 x 的 范围 里 连续 。 

假定 14.4 4 n— c ,oo 时 ,招生 AP 一 oo H k'*° /n°— 0, 

接 下 来 的 定理 给 出 了 5(x) 的 渐 近 正 态 结果 。 

定理 14.5 在 假定 14.3 和 14.4 下 


(k/n) p(x) 
. | 


pO) (Cx) -5(x) -| _*N(0,Y ) 依 分 布 收 伍 


Ko =[ arh 


d, = 有 (Un) 
p(x) = (1/2) «otrlg™ (x)}/(cf(x) )™ 


š Wn 0 | 
0, Coku’ (x)1 AL 


对 定理 14.5 的 证 明 在 14.9 节 中 给 出 。 

g(x) 的 渐 近 分 布 (5(x) 的 第 一 个 元 素 ) 可 以 作为 一 个 推论 得 到 。 
推论 14.1 在 与 定理 14.5 相同 的 条 件 下 ,我 们 有 

k'? (g(x) -g(x) - (k/n) p(x) )—N(0,corko (x) ) 依 分 布 收 敛 


14.4 局 部 常数 k-nn 估计 的 交错 鉴定 


我 们 考虑 非 参 数 回归 模型 
V, = g(X,) * ua, š =m l,2, = n 
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W X, 为 中 心 的 knn 距离 定义 如 下 : 

定义 14.2 R,=R,(X,) Z fE BT í É X (j> i) HE X, 的 -nn 欧 几 里 得 
距离 。 

为 了 简化 证 明 , 我 们 对 加 权 函 数 施 加 一 个 很 强 的 条 件 。 我 们 假定 wl): 
R '— R 是 一 个 有 界 的 非 负 加 权 函 数 ,w(v) =w( -0) ,|w(v) dv =1, 且 对 
| vll 二 1,w(v) =0, 其 中 | | 表示 * 的 欧 几 里 得 范 数 。 可 以 证 明 这 一 章 中 讨 
论 的 所 有 结果 保持 不 变 , 如 果 对 1 || =1l,w(z) =0 的 条 件 放 宽 为 | ol >1， 
w(v) =0。 但 是 ,由 于 必须 考虑 一 个 附加 项 ,证 明 过 程 将 变 长 。 注 意 当 在 证 明 中 
改变 变量 时 , |> | =1 对 应 于 第 个 近邻 ,计算 均 方 误差 时 阶 数 为 ,而 均 方 
误差 首 项 的 阶 数 为 上 + (k/n)”, 小 于 k-*。 因 此 ,第 上 个 近邻 对 均 方 误差 的 计 
算 有 一 个 渐 近 可 忽略 的 贡献 。 因 此 ,不管 我 们 假定 的 是 当 | l] =1 时 ,w(v) = 
ORÈ Joll >1 时 ,w(v) =0, 都 不 影响 k-nn 估计 量 的 渐 近 分 析 。 

SG 表示 n x1 维 向 量 , 它 的 第 i 个 元 素 为 8(X)。 那 么 我 们 知道 Ê, = 


M, (E) Y, JEI} M, 是 一 个 nxn 维 矩 阵 , 它 的 第 (i,7) 个 元 素 由 w/w, 给 出 ， 


其 中 u; =w( (X, -X,)/R,) H. R, KHF ko 

下 面 给 出 的 是 Li( 1987) 研究 的 三 个 著名 的 选择 大 的 步骤 。 

(i) Mallows 的 C,( 或 Cp) ( Mallows ( 1973 ) ) :选择 使 以 下 目标 函数 最 小 化 
的 天 值 : 


k. = arg min P [了 ~ g(X.)] +2o°u[M,(k)]/n (14.13) 
其 中 0 是 u 的 方差 。 在 实践 中 ,我 们 可 以 通过 5 =n 》 i 来 估计 o ,其 中 
ü, = Y, -g(X,)。 
(ü) 广义 交错 鉴定 (Craven 和 Wahba( 1979) ) :选择 以 最 小 化 
n` S [ Y, - g(X,) ]° 
cev = arg PIR (1 —n''tr[M.(k)])° ( 1⁄4, 14) 


(iii) 去 一 交错 鉴定 (Stone(1974) ) ;选择 上 以 最 小 化 
CV, = py [Y, - g.,( X,) T? (14.15) 
其 中 g.,(X;) = >. Yw > Esq u((X, - X )/R,)) 是 g(X,;) 的 去 一 kk-nn 
估计 值 。 — 
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= m yi m i S x m 异 


CCV 和 C ,方法 的 计算 比 去 一 交错 鉴定 方法 的 计算 要 简单 。 

Li(1987) 证 明了 以 上 三 种 方法 渐 近 等 价 。 它 们 都 在 某 种 意义 上 得 出 了 一 
个 最 优 的 平滑 , 即 

JU (z) -eg(z)]?dF(z) 
inf, [[ 8.(x) - g(x) JAF (x) 

HPR g(a) =&8(x) BR(14.7) EX, k IM, IEP 8,(x) 是 g(x) 的 
k-nn 估计 ,其 运用 上 述 方法 之 一 选择 值 。 也 就 是 说 ,在 式 (14.6) 中 ,= 上 ,或 
者 k=kccy ,或 者 k = koyo 

方程 (14. 16) 说 明了 以 上 三 种 方法 的 任何 一 种 在 某 种 意义 上 都 能 得 到 一 个 
最 佳 的 大 值 ,使 得 最 终 的 渐 近 加 权 积 分 平方 误差 等 于 最 小 的 可 能 加 权 积分 平方 
误差 。 

对 数据 驱动 的 大 ,要 建立 &(x) 的 渐 近 正 态 性 必须 得 到 一 个 非 随机 的 不 , 记 为 
,使 得 Vk 全 1。 我 们 转向 下 面 的 去 一 交错 鉴定 方法 的 推导 。 

假定 14.5 (X,Y,) 独 立 同 分 布 ,u, =Y, -zg(X,),E(u ) 是 有 限 的 ,g(x) 和 
f(x) 都 连续 且 直 到 三 阶 可 微 。o*(x) = E(w IX, =x) 是 关于 x 连续 的 。 令 5 表示 
MC- ) 的 支撑 集 , 则 对 于 某 些 5>0, 有 inf.. f(x) >ô. 

假定 14.6 vw(. ) 是 一 个 有 界 、 对 称 、 非 负 函 数 , 当 |> | 1 时,w(v) =0。 
[wd = WO = 1, fw(v)w'dv = Kaly, fu? (v)dv = x, fw? (v)vw'dv = 
kal, 其 中 了 是 一 个 9 EREE, e A ks 都 是 有 限 的 正常 数 。 

假定 14.7 对 于 任意 小 的 se (0, 了 了 ), 有 keA=[n',n']。 


条 件 vl >1 时 ,w(v) =0 可 以 放宽 为 |v >1 时 ,w(v) =0, 结 论 不 会 改 
变 。 但 是 这 需要 更 长 的 论证 。 假 定 14. 7 意味 着 当 k/n) 且 当 n— = 时 ， 
k— = 。 它 保证 了 当 样 本 大 小 增加 时 ,k-nn 估计 值 的 偏差 和 方差 收敛 于 零 。 

以 g'"(x) 表 示 g(x) 的 g x1 维 一 阶 导数 向 量 ,g'” (x) RR g( x) ËJ q x q HE 
ZRF FRERE, S g,(x) (f(x)) 表 示 g(…)(f(，)) 对 x 的 偏 导 ,其 中 x, 为 x 
的 第 :个 分 量 (s =1,…,g)。 

Ouyang, Li 和 Li(2006) 证 明了 式 (14. 15) 定义 的 CV, (k) 的 首 项 具有 形式 
BD, (k/n)”“+B,k ,在 keA 是 均匀 的 ,其 中 ， 


$, =c; eal( [Br es] + Y G)z,G)]) 


x [f(x)] M(x) dx (14.17) 


一 (14.16) 
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p, = cox fo? (x)M(x)f(x)dx (14.18) 
因此 ,我 们 有 
CV,.(k) = Ø, (k/n)*" + Bk + o( (k/n)*% + k'') (14.19) 
fE ke A 是 均匀 的 。 令 k, 表示 最 小 化 CV, (k) 的 首 项 , 盏 (k/n)* + @,k "的 上 
值 。 很 容易 证 明 k. =at? ,其 中 ao = [q@,/(4@,)]“ t. ZAHER K A k 
的 交错 鉴定 值 , 由 式 (14. 19) 立 即 有 下 述 结论 。 
定理 14.6 在 假定 14.5 至 14.7 的 情况 下 ,我 们 有 
É =k +o (k) 或 等 价 地 ， K/h 1 
Ouyang 等 对 定理 14.6 进行 了 证 明 。 
令 gi(x) 表 示 上 = 时 的 g(x)。 下 一 个 定理 给 出 了 gi;(x) 的 渐 近 分 布 。 
定理 14.7 在 与 定理 14.6 相同 的 条 件 下 ,对 于 xeR",f(x) >0, 我 们 有 
Ë (g (z) -g(x) -(k/n) pL(x) )—N(0,coro (x) ) 依 分 布 收敛 
其 中 


pL(x) = (1⁄2)x, Í OTAG + f(x) | gla) | BA 


定理 14.7 的 证 明 遵 循 定理 14.4 定理 14.6 及 随机 同等 连续 性 定理 。 详 细 
证 明 过 程 参 见 Ichimura(2000) 。 


14.5 局 部 线性 k-nn 估计 的 交错 鉴定 


非 参 数 回 归 模 型 与 之 前 考虑 的 相同 , 即 
Y = g(X.) +t, ial, ñ 
之 前 提 到 8( X.) =(z(X,),g) (X,)')', 8(X,)BJ £— k-nn 估计 值 由 式 
(14. 20 ) 给 出 : 
1, (X, - X,)' Š 
( X.) = R.. ? i 
iaid [Z s>. Pea N | 
n 1 
x X Ris x xl” (14. 20) 
其 中 wR, =R "w((X -X,)ZR,). 
g(XX,) 的 去 一 k-nn 估计 值 由 5_ ,(X,) =ei6_,(X,) 给 出 ,其 中 6 为 qxl 向 
量 , 它 的 第 一 个 元 素 为 1,e, 向 量 的 其 他 元 素 都 是 0。 选择 上 值 来 最 小 化 交错 鉴 
定 目标 函数 
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CV, (k) = n” Y (Y, - g. (X,) 2M(X,) (14.21) 


i=1 


HP g (X,) =e,6_,(X,) ,M( - ) 为 一 个 加 权 函 数 。 
Ouyang 等 证 明了 ,CV (k) = š ) + Pk! ro 人 (二 + | 在 ke 


4 是 均匀 的 。 
其 中 @, 的 定义 与 式 (14. 18 ) 中 的 相同 , 且 


-4⁄q 2 


a = % ESEA ute® Ca) 1) A OAM) da (14. 22) 


我 们 观察 到 ,与 逐 点 结果 相似 ,局 部 线性 交错 鉴定 目标 函数 的 偏 误 首 项 有 
一 个 简单 的 形式 。 

令 ,表示 最 小 化 CV, (k) 的 首 项 b, ,(k/n) + Ó,k BU k IË , 4 2 E 
ko Y hiis ,其 中 g | = [q@%,/(4%, ,) ] 90 R — À IE 35 3⁄ ; 下 一 个 定理 证 
明了 交错 鉴定 值 上 渐 近 等 于 ,。 

定理 14.8 在 假定 14.5 至 假定 14.7 条 件 下 , 今 表示 大 的 局 部 线性 交错 
鉴定 值 , 则 
K, = kur to(ku) REM, k/ko, 1 
除了 上 = 上 ,6i(x) 的 定义 类 似 于 56(x) ;6i(x) 的 渐 近 分 布 由 下 述 定理 给 出 。 
定理 14.9 在 与 定理 14. 8 相同 的 条 件 下 ， 
Domica) sga ña au 22 ) 依 分 布 收敛 


其 中 


> 

~ 
= 

— 
II 


£ 0 ' _ _ 
| a | d. = KU (knj 
0,d.I, 


u(x) = (1/⁄2)x,tr|g?)(x)| Z( c f(x) )*? 
cko’ (x), 0 
> -| 0, E o 
由 定理 14.8 和 与 定理 14.7 证 明 过 程 中 类 似 的 论证 ,可 证 明定 理 14.9。 故 
在 此 省 略 。 
5i(x) 第 一 个 元 素 g,i(x) 的 渐 近 分 布 作为 定理 14.9 的 一 个 推论 给 出 。 
推论 14.2 在 与 定理 14. 9 相同 的 条 件 下 ,有 


k? (g, (xz) - g(x) - (kK/n)™ u, (x)) NO eno (s)) 
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14.6 k-nn 方法 估计 半 参 数 模型 


我 们 之 前 讨论 的 使 用 核 方法 的 半 参 数 模型 都 可 以 采用 k-nn 方法 来 估计 。 
例如 ,关于 使 用 k-nn 估计 方法 ,Newey(1994a) 考 虑 了 平均 导数 的 估计 ,Liu 和 Lu 
(1994a) 研究 了 部 分 线性 模型 的 估计 ,而 Yatchew,Sun 和 Deri(2003 ) 估 计 了 单 
(多 ) 指 数 模型 。 在 这 一 节 ,我 们 讨论 一 个 流行 的 半 参 数 模型 的 估计 , 即 对 第 7 
章 考虑 的 部 分 线性 模型 进行 估计 。 

部 分 线性 模型 形式 如 下 : 

Y, = X; B + 0(Z,) + u, (14.23) 
其 中 Z, e R * 是 连续 随机 变量 的 一 个 向 量 。 

类 似 于 B 的 基于 核 估 计 值 推导 的 情形 ,可 以 通过 使 用 下 式 的 基于 k-nn 的 方 
法 来 估计 B: 

Ê = Sr rSr-s.v-9 (14. 24) 


其 中 Ser = n" > (X, - X.) (天 一 天) Seir = n" > (X, - X)(Y, - 
Y)1,1 = 1(f, > b),b = b,( > 0) 是 一 个 修剪 参数 ,万 = SX/ Y mp? = 


2, Ye D wy fi = (st) > w, ,Ws =w( (X; -X,)/R,), H X,.Y, 和 ff, 分 别 是 
E(X,1Z,) .E(Y,1Z,) fl f( X.) É k-nn 估计 值 。 

条 件 14.1 w 是 一 个 > 阶 加 权 函 数 ( 即 一 个 > 阶 核 函数 ) ; 当 n— x 时 ,kk 一 
œ ,b—0,n kb sm nk b 7.0 en 一 0 H k'n tb 0, 

定理 14.10 与 定理 7. 1( 核 方法 ) 以 及 上 面 的 条 件 14. 1 给 出 的 条 件 相 同 , 
我 们 有 

Jal - B) 一 N(0,V) 依 分 布 收敛 

JërB,V=E[X,X;] |E[o'(X,,Z )X X: ] |} !E[X X:],X =X, -E(X,IZ,), 
o" (X,,Z,) =E( |X,,Z,). 

有 关 定 理 14. 10 的 大 致 证 明 过 程 在 14.9 节 给 出 。 

定理 14. 10 表明 基于 k-nn 的 半 参 数 估计 值 8 有 着 与 基于 核 的 估计 值 相 同 
的 渐 近 分 布 。 可 以 参见 Newey( 1994a) 的 结论 。 
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14.7 k-nn 方法 的 模型 设 定 检验 


关于 构造 一 致 模型 设 定 检验 有 大 量 的 文献 ,诸如 在 第 12 章 中 提 到 的 ,不 过 
大 部 分 现 有 的 检验 是 基于 核 序列 、 样 条 或 者 小 波 方法 。 而 k-n 方法 是 最 流行 
的 非 参数 估计 技术 之 一 ,我 们 知道 的 仅 有 的 基于 k-nn 的 检验 是 Stute 和 Man- 
teiga( 1996) 以 及 Li(2006 ) Stute 和 Manteiga 考虑 了 一 个 单 变 量 回归 模型 ,他 
们 运用 一 个 单调 变换 来 使 他 们 的 k-nn 检验 等 价 于 一 个 核 检验 。 而 Li 提出 了 一 
个 对 一 般 多 元 回归 模型 的 检验 。 

考虑 一 个 参数 回归 模型 ,形式 如 下 : 

Y, = m(X,,B) +z, (14.25) 
其 中 XeR',B 是 未 知 参数 的 一 个 p x1 维 向 量 ,我 们 感 兴 趣 的 是 检验 对 式 
(14. 25 ) 的 正确 设 定 的 原 假 定 , 即 对 于 某 些 Be BCR ,H :几乎 处 处 E(Y, 1X; = 
x) =m(x,B) ,这 里 8 是 R” 的 一 个 紧 潜 子 集 。 给 定 u, = Y, - m(X,,B), 原 假定 可 
以 等 价 地 写成 
H ;:E(u,] X, =x) =0a.e., 某 些 BeB 

备 择 假定 与 H, 相反 , 即 H, :E(u; 1X; =x) 关 0, 对 在 正 测 度 集 上 的 任何 Be B。 

我 们 在 1=ELuE(u;1X;)f(X;)] 的 基础 上 构造 检验 统计 量 。1 的 相应 样本 形式 


X I, = 一 了 wiE(u | X ACX: ) o 为 了 得 到 一 个 可 行 的 检验 统计 量 , 我 们 通过 


ú, =Y, -m(X, B) KIKI u HEP 6 EE H, 假定 下 B 的 任意 Vn 一 致 估计 量 , 即 
基于 式 (14. 25) 的 非 线性 最 小 二 乘 估计 量 B。 
首先 ,我 们 定义 R, 的 简化 符号 如 下 : 
R, = R.(X,) = X, 与 第 上 个 近邻 的 欧 几 里 得 距离 
接着 我 们 通过 以 下 去 一 k-nn ee E(e,lX,) 和 f(X.): 


É (Wl K.) = Ufa) 








ss. 人 R, 
- X, - X, 
-i ) (14. 26) 


fE 1, 的 表达 式 中 以 羡 \E_,(w1X) 和 f_,(X,) 分 别 取代 ww、E,(u1X,) 和 
f.(X,) 得 到 一 个 可 行 的 检验 统计 量 : 


-> (14.27) 


1 j# 
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其 中 ws =u( (X, - X,)/R,). 注意 因为 R, R, ,有 10; ÉW; o 
4 || >1 时 ,w(v) =0 这 个 条 件 可 以 用 条 件 | wo) I v || *dv < wm 取代 ,不 
会 改变 这 一 节 的 结论 。 例 如 ,在 实践 中 可 以 使 用 一 个 标准 正 态 核 ,尽管 证 明 过 


程 将 会 更 加 繁琐 。 
在 与 定理 12. 1( 采 用 核 方法 ) 相 同 的 条 件 下 ,并 在 假定 14.1 和 14. 2 下 ,Li 


(2006) WEHT Î, 的 渐 近 原 分 布 由 它 的 首 项 1, 决定 ,其 中 由 下 式 给 出 : 








2 Y Y M, (Z.,Z,) (14.28) 
其 中 H, (Zi, Zi) = (1/2) wu ( (wR) + (w ZR )) W Z, = (uw, X, , R,)o 
E(u1X,) =0 意 味 着 E[ H,,(2,,2,)12,] =0。 因 此 ,i,, 是 一 个 二 阶 退化 0 统计 
量 。7,, 的 渐 近 分 布 可 从 关于 退化 U 统计 量 的 Hall(1984) 中 心 极限 定理 推导 
出 来 。 

Li(2006) WE T EBE H F, # Ín =0,( (nk)? i, -in =0,(n') = 
o,( (nk) 2), AI, EBE H F, ini L 09808 BD T, mi, AE AEA 


布 。 定义 


“2 1 


ó = DD (ws/R' + WAR (14.29) 


Li(2006) 证 明了 下 述 结论 。 
定理 14.11 在 引 理 A.15 和 A.16 K H, 假定 下 ,有 
T, E ni Ai 
= (nk)'2Í,/| (kn) GS N(0,1) 

可 以 证 明 ,无 论 是 在 假定 H, EJ: H, 下 ,都 有 (k/n)6? = 0,(1)。 当 原 假 定 
为 真 时 ,1 的 首 项 是 一 个 以 (nk) -的 速率 收 伍 于 零 的 退化 UV 统计 量 。 可 以 证 
明 , 当 为 真 时 ,1, 收敛 于 一 个 正常 数 , 记 为 C >0。 因 此 ,在 已 下 ,7 以 
(nk)'” 的 速率 发 散 至 无 穷 。 所 以 ,基于 的 检验 是 一 个 一 致 性 检验 。 


14.7.1 自 举 法 检验 


可 以 证 明 , 在 假定 H, 下 ,7, 检验 以 一 个 相当 低 的 速率 O ( (k/n) 2?) k k T 
它 的 渐 近 标准 正 态 分 布 。 这 个 速率 与 选择 k/n — h' 的 基于 核 方法 检验 的 速率 
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k 2 x 次 se $ p & XN 


相同 。 其 中 ,h 是 核 检验 的 平滑 参数 。 各 种 自 举 法 被 使 用 以 更 好 地 逼近 大 量 现 
有 的 非 参数 检验 的 零 分 布 ;参见 Hirdle 和 Mammen ( 1993 ) ,Li 和 Wang( 1998) , 
以 及 其 中 的 参考 文献 。 

也 可 以 通过 原始 自 举 法 和 逼 近 T. 的 零 分 布 。 令 wu” 表示 满足 下 列 条 件 的 自 
举 误差 (基于 已) : 

(E(w) =0, (ü) E(w ) =å, (iii) E' (ut) = ú 

(14.30) 

HP E (`) =E( - ly,),x, = | (X,,Y,)] 7. Wim, hH ul =aú, Mu’ = bi 得 

到 两 点 原始 自 举 法 残 差 值 。u”= ai, 的 概率 为 r= (V5 +1)/(2 /5) if] u" = bu, 

的 概率 为 1 -r, 其 中 a=(1 -Vy5)/2,b=(1+Y5)/2, 满 足 式 (14.30) 给 出 的 三 个 
条 件 。 

接 下 来 ,生成 Y” =m(X,,B) + u` ,并 且 使 用 基于 原 模型 Y”= m(X,,B) + 
error 的 自 举 样本 |X,,Y" | ,通过 非 线 性 最 小 二 乘法 来 估计 B。 令 B" 表示 得 到 
的 估计 值 。 自 举 残 差 由 立 =Y”-m(X;,B" ) 得 到 。7T” 的 定义 类 似 于 7, 只 是 
将 式 子 中 的 立 用 立 ”取代 。 在 实践 中 重复 以 上 过 程 多 次 ,比如 B =399 次 ,得 到 
B 的 自 举 法 统计 量 17 |”,。 如 果 7, > 7”，, 则 在 显著 性 水 平 a 上 拒绝 原 假定 


H, JGP T'ITU 4, 的 上 a 分 位 点 。 
在 Li(2006) 中 报告 的 模拟 表明 ,基于 k-nn 的 检验 与 基于 核 估 计 的 检验 很 
相似 ;参见 Hirdle 和 Mammen(1993) ,Li 和 Wang(1998)。 特 别 地 ,如 果 采 用 渐 


近 正 态 临界 值 , 则 T, 检验 通常 显著 性 不 足 , 然 而 , 自 举 法 检验 运行 良好 。 因 此 ， 
我 们 建议 在 实际 中 采用 自 举 法 。 

以 上 给 出 的 基于 k-nn 检验 的 结论 可 以 很 好 地 扩展 到 对 弱 相 依 时 间 序 列 模 
型 中 的 正确 参数 回归 函数 形式 (运用 k-nn 方法 ) 的 检验 情形 。 在 此 情形 中 ,我 
们 可 以 对 弱 相 依 数据 使 用 一 个 关于 衰退 U 统 计量 的 中 心 极限 定理 (如 Fan 和 Li 
(1999a) ,来 证 明 对 弱 相 依 数据 这 个 检验 有 相同 的 渐 近 分 布 。 我 们 也 可 以 扩展 
这 些 结论 来 检验 使 用 k-nn 方法 的 更 加 复杂 的 原 模 型 。 例 如 ,一 个 非 参数 遗漏 变 
量 检验 ,单个 指数 模型 检验 ,或 者 部 分 线性 模型 对 普通 非 参 数 模型 的 检验 ;参见 
Fan 和 Li(1999a) , Delgado 和 Manteiga( 2001) 。 

相关 的 工作 还 有 Delgado 和 Stengos(1994) ,他 们 运用 k-nn 方法 构造 了 一 个 
模型 设 定 检验 ,对 参数 原 模型 针对 非典 套 的 非 参 数 备 择 模 型 进行 检验 。Rob- 
inson( 1987 ) 在 条 件 异 方差 误差 形式 未 知 的 线性 回归 模型 中 构造 了 一 个 基于 k- 
nn 估计 的 自 适 应 (有 效 ) 估 计 方 法 。 
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14.8 对 于 x 的 不 同 的 分 量 采 用 不 同 的 大 值 


到 现在 为 止 ,我 们 只 讨论 了 使 用 一 个 标量 上 的 情况 。 在 实践 中 ,我 们 可 能 
用 到 乘积 核 W(X, - z) /R.) = || WCX, - X.) 7R,) ,其 中 RATE Xt x, 


的 第 上 ,个 近邻 与 x, 的 距离 ,i =1,…,n,s =1,…,g。 这 个 方法 对 于 不 同 的 x, 允 
许 使 用 不 同 的 (类 似 于 核 估计 中 对 于 不 同 的 x, 使 用 不 同 的 六 ) 并 且 期 望 得 到 
更 准确 的 有 限 样本 估计 。 在 实践 中 ,我 们 也 可 以 使 用 14.4 节 中 讨论 的 Mallow 
的 Ci 方法 .CV 方法 和 GCYV 方法 来 选择 大。 正如 预期 的 ,与 使 用 标量 大 相 比 ,对 
于 x, 的 不 同 分 量 使 用 不 同 的 矿产 生 了 更 准确 的 非 参 数 估 计 ( 与 使 用 的 欧 几 里 
HERAK), BI, HAW k, 在 协 变量 间 不 同时 , 它 的 渐 近 分 析 相 当 复 杂 而 且 
目前 这 种 情况 在 理论 上 是 无 效 的 。 


14.9 证 明 


因为 和 zm -1 都 产生 了 一 致 的 渐 近 结果 ,所 以 我 们 对 m 和 -1 不 加 以 区 
分 。 例 如 ,我 们 可 以 用 by > E(A;) =. E(A,,) 取代 [nm(z -1)/n ]E(A,..) 
来 简化 我 们 的 分 析 。 
令 S.={lz:|o-xl<rH 以 * 为 圆心 ,r 为 半径 的 球 ) ,C(r) =P[X eS], 
=|s:|ə-—-x| <R.},P(S,) =P[X,eS,], 显 然 有 G(R.) =P(S,)。 
, 令 入 \Y 为 整数 使 得 EL b(R,.) ] 存 在 , 则 


E[@(R) 1 X,] = (f(X) (E) +s.0.) 
其 中 co。=mz”/T((g+2)/2) 是 R' 集 里 单位 球 的 体积 ,并 且 (s.o. ) 表 示 概 率 阶 数 
( probability order) /h F (k/n) 17 IJ Ji 
证 明 : 运 用 Mack 和 Rosenblatt ( 1979 ) 中 的 等 式 (12) 以 及 Liu 和 Lu ( 1997) 
中 的 引 理 1 可 以 证 明 , 对 于 m= (A+7)/g, 其 中 m 为 整数 ,n 为 小 于 或 等 于 9 - 
1 的 非 负 整 数 (0<n<g -1) ,有 


E[B(R) ! X,] = C (2 By Py 
k1( m- y)!\n-m- 


1 
A Pe mr = 
引 理 14.1 + @(r) == 


(14.31) 
注意 
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Es [2) (4) +e.) 


-A/q-y 
+ (s. o. ) 


) 
e ETTE 
) 


将 此 式 代 入 式 (14.31) 证 明了 引 理 14. 1 。 口 

注意 引 理 14. 1 ERË R —(c /(X,)) '*(k/n)'%(r=0,A = -1)。 这 是 一 
个 期 望 中 的 结果 ,因为 R, 相当 于 核 估计 中 的 平滑 参数 hh H h~(k/n)"s 31% 
14. 1 也 意味 着 G(R;)~(k/n)。 

引 理 14.2 令 4(x) 为 x 的 可 测 函 数 , 则 


E[ Ax) (2 2)' X,,R,] Bat M. 











n G(R,) 
X, - X, 
x |，  fOU)AGX)[ 一 = Jax, 
(14.32) 
证 明 : 这 个 证 明 过 程 直 接 由 Mack 和 Rosenblatt ( 1979 , 式 (22)) 以 及 对 
I X, - X, || =R, # w( (X, - X.) /R,) =0 的 事实 可 得 。 口 


434 我 们 知道 
G(R,) = P[ || X, - X, || < R,| R,] 


< f ag afl RSC) deda, 

= Nx! R,)P[ l X, -ži Il < R, | xi, R, ]dx; 
" [xl R,) (k/n) dx， 

= k/n 


由 引 理 14. 1 我 们 知道 可 以 用 k/n 取代 C(R,) 。 如 果 在 式 (14. 32) 中 以 k/n 
取代 G(R,) ,将 得 到 











E[ Ax) uw( Te) X,,R,] = fiara af DA) xu 人 (三 ju 
(14.33) 
另 一 方面 ,我 们 知道 
[aau ZA) x,,R,] = J afl R)A(x,) xu 人 (三 二 as 
了 
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区 这 i = = ka ib k. & 


对 比 式 (14. 33 ) 与 式 (14. 34 ) 我 们 得 到 
x; am 
| a fe! R.)A(x) w | z 





i) as, 





= J... send” )A(x;, )w (= 
方程 (14. 35 ) 表 明了 在 计算 中 我 们 可 以 用 fx) 有 效 地 取代 f(xj1R;)。 
14.9.1 定理 14.1 的 证 明 
证 明 :运用 式 (14. 33 ) 我 们 有 
E[f(x) | R.]= E| Rw ) R.] 


= R- ‘fw me - Z) fC ) dx, 


= [Cos +vR,)dv 


Ja (14.35) 


= f(s) + (1/2)8 [e (e) f) (x)vdv + OCR?) 


因此 ,E(f(x)) =f(x) + (1/2) rotr[f (x) JER) +O(CE(CR.))。 我 们 现 
在 计算 E(R )。 运 用 引 理 14.1, 有 和 = -2,y =0, 我 们 得 到 
E(R`) = (c/(x)) ?“%(k/n)?? + (s.o.) (14.36) 
类 似 地 ,我 们 可 以 证 明 E( R ) =0((k/n)””“)。 因 此 ,我 们 有 bias f(x) = 
(1/2) katr[LF2 (x) ] (f(x)) k/n)” + O((k/n)?) ç 
接 下 来 ， 


var(f(x) | R,) = (aR) {E [we ， R.] + (s.o. )] 


= (nR') f(x) ee) do + (s.o. ) 
同时 ,由 引 理 14.1 A E(R ') =cJ(x)(n/Zk) +o(n/k)(À =q,y=0), W 
此 ,var(f(z)) =k''e,f (x) +o(k'')(c,=c[|w (s)°do), D 
14.9.2 定理 14.5 的 证 明 
证 明 : 类 似 于 定理 2.7 的 证 明 ( 核 方法 情形 ) ,在 式 (14. 12) 中 引入 一 个 单位 


2 
K. 


0 
和 矩阵 7,,, =9”9., 其 中 9,= (nR'”) anam 


0, I 
(x) =8(x) + [A=]! {A> +A} + (s.o.) 


q 
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4 Ls 这 < = x< zt 学 g 
436 ”其 中 
l. l R°, Ë (K. = ay" 
A t, * z 
R 2 al V. (X, ol 
f aag A 
-| | (14.37) 
A> A 
2. 1 R? ,tad 
A # — j x, — x x)(X, - x)⁄2 
有 
A? 
-| i | (14.38) 
£” 
A" = i 5 | | pi (14. 39) 
= s W; > u, = & 
PR i Xx, =g ' sz 


引 理 14.3 在 定理 14.5 的 条 件 下 ,我们 有 
(i) 4 =f(x) +0,(1), 
(ii) AU =S” (2) +o,(1), 
(iii) 4 =0,((k/n)°"), 
(iv) AX = «f(x)1, +0,(1), 

A Fa), O 
hida =M +0,0) ,其 中 =| 56, atoni 

(i) 的 证 明 :4,”=f(x) 是 k-nn 密度 估计 值 ,f(x) =/(x) +o(1) 在 定理 

14. 1 中 已 证 。 口 

437 (ii) 的 证 明 :通过 式 (14. 33 ) 我 们 有 
l, -(e2) [X - x 
E[4i] = E| R. „(7 = - x)| 


= Ef e| R? [8 2)o, -x)| R.]! 


= ER fw(w) ux + vR,)dv} 
= E{R' fwlv)ol fa) + sf (x)R,]dv}+ (s.o. ) 


= kf” (x) + 0((k/n)24) 因为 (so.) = O(E(R°)) 
= 0((k/n)*“) 
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习题 14.1 证 明了 var( A) =O(n`'), AI, 
A," = E(A,) + O,(n7!2) = kf (z) +O,((kZa)2? +r) O 
(iii) 的 证 明 :由 引 理 14.1 和 公式 (14. 36) 我 们 有 ELR] =0((k/n)”)。 


因此 ,由 引 理 14.3(ii) h A =0, 01) HE A =R (A3) =0,( (k/n)? )0, (1). 


= 
(iv) KWEH :使 用 式 (14. 33 ) 我 们 有 


E[A' 1 R,] = E| R” (X, - x) (X, - z) 's (Z5) R.] 
= R” [Ca - x)(x, 一 x) 'w( ŽC ) dr, 


= Je CA) do + OCR?) 


因此 ,由 引 理 14. 1 得 到 
E[A,] =E|E[A 7 IR,] | =x,f(z)1I, + 0( (k/n)**) 


根据 在 (ii) 的 证 明 中 相同 的 论证 ,可 以 证 明 巨 [| AL - kaf (x)1, |°] = 


o(1) 。 因 此 ,4,” =r flx)I, +o(1)。 口 
(v) 的 证 明 :4'”“=MM+o,(1) 由 上 述 (i) 一 (iv) 得 到 。 口 
引 理 14.4 


(i) A= (k/n) [f(x) p(x) +o,(1)] 
(ü) A” = 0,((k/n)”%) 
(i) 的 证 明 : 


BE[42 | R.] = R fo( 2 =) Ga - x)'g® (x) (x - x)/(x,)dz, 





= R(x) |w(w)wg2 (x)vdv + (s. o. ) 


= w,R`f(x)u[zg2)(x)] + (s.o.) 
因此 ,由 引 理 14. 1 得 
Et A?” = E{E[A,” | R.]| 

= k f(x)trig” (x)}(k/n)™ + (s.o. ) 

= (k/n)” [f(x)u, (x) +o(1)] 
与 引 理 14. 3 ( ii) 的 证 明 类 似 , 我 们 可 以 证 明 

E|[(k/n) 一 4”- f(a)u,(z)] | = o(1) 

因此 ,(k/n) A =f(x)m (x) +o(1)。 口 
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(ü) 的 证 明 EXW, =u, (X; - zx) (X, —z)'g (z) (X, - x) ,我 们 有 
BE[1 A; |! R.] 
= E[(4,”)'(4,") 1 R,] 
(2aR,) 2 X, Z E|[W..]'[W.,] 1 R, 


(4nR2) EL [WI Wil RJ} + -—kE|E[WL..1 R.]E[W,..I R.) 





= Cn + G,, 
运用 式 (14. 33) 和 引 理 14. 1 ,容易 证 明 
Cn = 0,((k/n)”"k™) = o,( (k/n)**) 
H Cn = 0 ((k/n)“*) (见习 题 14. 2)。 因 此 ,我 们 知道 E[| A 2] = 
E|E[| A” | IR,]| =C,, +C,, =0,((k/n)**) , 它 意味 着 4,” =0,((k/n)”)。 
口 
439 引 理 14.5 
(i) var(k'?A ) =coxf (xz)o (x) +o(1) 
(ii) var(d,4 ) =c,kxəf'(x)o' (x)I, +0(1) 
(iii) cov(k'24 U”, d,A 7) = 0( (k/n)!) 
(i 让) 的 证 明 : 
3,x\2 E -2q 2 X, “ S u 
E[ (A?*)? 1 R,] = R; E| w | "i R,] 
一 Y G aa =) o? (a, )/(x,) dx, 
= n 'R [Ko (x)f(x) + (s.o. ) ] 
因此 ,由 引 理 14. 1 得 
var(4 ”) = E|E[(AU)2 1 R,]} = (1/k)xf'(z)o?(x) + o(1/k) 
(ii) 的 证 明 : 
E[ (A) (A) 1 R.] 
1 2 X, -x 2 — £ = , 
à Tš xE[w je (RE = (K. —sy'! R,] 
国 (nR?) [kyf(x)o (x)L, +o(1)] 
因此 ,由 引 理 14. 1 得 
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var(d 4 ) = d'E|E[A (A) 1 R,]! 
= dn (k/n) P kafa) a) +o(1)] 


= [kzf(x)o (xz)7 +o(1)] 口 
(iii) 的 证 明 ， kša 
cov(k'2A 7, d,A7 | R,) 
= — R.] 


= k'°q,(nR* )- ' x fw (二 > (x, — x)o'(x,)/(z,)dz=, 


= k'?d, (nR')”! fit + E 


Hp m(x) =o (x)f(x)。 
因此 ,由 引 理 14. 1 我 们 有 
cov( 有 24 d, A”) = Chk’d,.n'E(R') + (s.o. ) 


= k' dn O(n/k) + (s. o. ) 
= O((k/n)'%) = o(1) 
(HX d, = k'? (k/n) ) 
定理 14.5 由 引 理 14.3 # 14.5 而 得 。 口 


14.9.3 定理 14.10 的 证 明 


引 理 14.6 SE( ° ) = E( M IZ, =z1,R), 且 令 g(z) 和 h(x,z) 属 于 9° ,对 
于 a>0, 整 数 v 三 2, 则 


G) | [zz -CD )W[ 2R E 2 


(ii) paze] 


G(R, | 








<h (a z | weo[ Ze R.) 


其 中 Z, z, JE (k -1)-nn 样本 中 的 一 个 , 它 落 在 区 间 |z: | z-z <R,| 内 ,而 
BR4D,( - ).L,( ` ).M,( - )#m H,( ` , ` ) 都 有 有 限 的 a 阶 矩 时 ,对 所 有 (x,z 
+) 和 (x,z) 有 Ih(x,z+u) -h(x,z)l<H,(x,z) lul, 

证 明 : 

(i) 注意 条 件 于 (X,,2, ,R,) ,2, 的 密度 为 f(z)/G(R,)。 441 

因此 ,由 Robinson(1988 ) 中 的 引 理 5, 
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Ef (8(2,) - g(a)) (2 =)! 


= fiela + R) - g(za) lw(v)fCz, + Ro) G(R,) Rd 


tr 


< D,a (a | 


“让 





(ii) 
E, [h (x, ,Ze 


T G(R, msl, zl — vR, )w'(v)f(x,z + Riv)dvdx 


< 


R: s 
GRET fu h(x,z) | +I H,(x,z,)eR, | Jw’ (e) dedx 








5 n (ak 14 Me (ck 


Hp L, (z) = ci h(x,z) | dx,M,(z) = cf! H,(x,z) | dx, 


引 理 14.7 
E[S,.;] = O((k/n)??k'b 2 + (k/Zn)?”%b”2 = o(n-2)) 

其 中 g(z) =9(z) 或 者 E(X1z)。 

证 明 : 见 习题 14. 3。 口 

引 理 14.8 

S..; , =0,( (nk) “'2(k/n)'*b"' +n” (kZn)”*b”') 

其 中 es=v 或 者 e=uv=X -下 (XIZ)。 

证 明 :我 们 只 证 明 当 g = 0 A e =u 时 的 情况 。 当 它们 为 向 量 时 ,由 柯 西 不 
等 式 可 证 。 

E|S. ,| =m X El(g,- g.) e, l] = n ES - 8)’elh)] 


442 E[ (g, -8,) (X, ,Z,)1, ] fll E[ (g, - zg, ) 7 有 相同 的 阶 ,根据 引 理 
14.7 ,我 们 得 到 
n-BE[(E -8)21] = O((nk) !(k/n)!2 b” + n" (k/n)”70 72) 
从 而 引 理 14.8 待 证 。 口 
引 理 14.9 
(i) S.,=O((mE)- 0) 
(ii) S, =O ((nk) 50) 
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证 明 :我们 只 证 明 (i) 中 仅 当 v=v(x,z) 是 一 个 标量 的 情况 。 当 v=v(x,z) 
为 向 量 时 ,该 证 明 可 由 柯 西 不 等 式 得 到 。 

(i) E[S] =n E[u] =n 'E[o (X,,Z,) ,与 习题 14.4 中 
n 'E[6 I] =0( (nk)-'b”) 有 相同 的 阶 ,接着 是 引 理 14. 9。 

(ii) (ii) 的 证 明 类 似 于 (i) (通过 w 和 vw 的 相互 交换 ) ;因此 我 们 只 提供 对 
(i) 的 证 明 过 程 。 口 

引 理 14. 10 

(i) S,=0 (k'`'b”?)(# =u sË v) 

(ü) S;¿;=0,(k''b 2) 

(i) 的 证 明 : 

E[I S,1]= EÇS] 


E n E| [RE È own |) 
< n 25 g | R;” Š sw, ] 


< C,(k - Da 0 E| R u (212) 


< Ckn?*b”2E|E[(R G(R,))” | R,]| 
= kn?2b 2 0((n/k)°) 


= O(k''b °) 
上 述 过 程 由 引 理 14.1 和 引 理 14. 6(ii) 可 得 。 
(ii) 的 证 明 由 (i) 和 柯 西 不 等 式 得 到 。 口 
引 理 14.11 Si ;=0,(  (k/n) b+hk (KMn)”0 2) ,g =u BË v 
证 明 : 该 引 理 可 由 引 理 14.7、 引 理 14. 10(i) 和 柯 西 不 等 式 得 到 。 D 
引 理 14.12 P[f,<b]=E(1-1,)=ọ(1) 
证 明 :参见 习题 14.5. 口 
引 理 14.13 


(i) S, = nD vw; +o,(1) 
(ü) S,, = n” > vu; +e (8 ” 


证 明 : 由 柯 西 不 等 式 和 引 理 14. 12 可 证 。 口 
与 我 们 证 明定 理 7. 1 所 讨论 的 类 似 , 引 理 14.3 至 14.6 的 证 明暗 含 着 定理 
14. 10, 
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44 14.10 J 题 


习题 14.1 证 明 var(4 ) = O(n`"'), 
提示 :应 用 引 理 14. 1。 

习题 14.2 证 明 E[A,*] =0,((k/n)”)。 
习题 14.3 证 明 引 理 14.7. 

HR WEH ELS, p] =0((k/n) +(HMn) 0 ) =0(n7'?), 
习题 14.4 WEH E[ó T] =O(k''b 2). 
习题 14.5 证 明 引 理 14. 12, 

提示 :这 是 Liu 和 Lu(1997) 的 引 理 8。 
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形成 这 本 书 主干 的 核 方法 只 不 过 是 目前 已 经 发 展 
起 来 的 各 种 非 参数 技术 的 一 种 。 在 这 一 章 中 ,我 们 考虑 
另 一 种 非 参 数 方法 , 它 通 常 被 称 为 “序列 方法 ”( series 
methods) 。 序 列 方法 根据 它们 所 使 用 的 逼近 函数 如 样 条 
或 寡 级 数 很 容易 被 识别 出 来 。 序 列 方法 要 求 使 用 者 选 
FE“ AA” (knots) 的 数量 或 者 震级 数 项 的 数量 ,在 这 里 ， 
这 些 节 点 或 者 医 级 数 项 的 数目 类 似 于 核 方 法 中 的 窗帘 
的 大 小 。 特 别 是 , 随 着 节点 数 ( 或 者 寡 级 数 项 数 ) 的 增 
加 ,得 到 的 拟 合 变 得 更 加 灵活 ( 即 更 小 的 逐 点 偏 误 但 是 
更 大 的 变异 性 (方差 ) ) ,这 相当 于 让 与 一 个 核 估 计量 相 
联系 的 窗 宽 缩 小 。 

使 用 序列 方法 相对 核 方 法 来 说 的 一 个 优势 在 于 可 
以 很 容易 在 最 终 产生 的 估计 上 施加 结构 ( 即 约束 )( 见 
15.3.1 节 )。 我 们 把 序列 方法 看 成 是 非 参 数 方法 的 补 
充 , 它 特别 适用 于 某 些 类 型 的 问题 ,如 有 约束 的 非 参数 
模型 的 估计 和 检验 ,例如 我 们 在 第 9 章 研究 的 可 加 和 变 
系数 结构 的 非 参 数 模型 。 在 本 章 我 们 将 只 考虑 这 样 的 
序列 估计 量 , 即 它们 是 序列 基本 函数 的 线性 组 合 。 对 一 
般 序列 的 估计 的 深入 处 理 , 见 Chen(2006 ) 。 


15.1 回归 函数 的 估计 


考虑 以 下 非 参数 回归 模型 ; 
Y asgl) * ú, ¿= 1,-- 8 (15.1) 
其 中 g(x) =E(Y.1x) 是 (未 设 定 的 ) 条 件 期 望 函 数 。 
为 便于 阐述 ,我 们 首先 考虑 X, 为 一 个 标量 时 的 情 
况 。 假 定 独立 同 分 布 数据 1X,,Y.17., ,我 们 可 以 使 用 以 
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E x i = x 总 4 K Š 


|p,(x)1" KRBE INE KA ge o ), HEP K= K . ERARA WJ 
性 质 是 , 随 着 K 的 增 大 , 基础 函数 {p,(x)1".,? 的 一 个 线性 组 合 , 比如 


S Bp, C) ,从 均 方 误差 的 意义 上 来 说 可 以 任意 好 地 逼近 任何 平滑 函数 
g( . ) , 即 存在 有 ,,…,B, 随 着 Ko 使 得 


ef | S Bp, - z(X.) |) 0 





事实 上 ,我 们 通常 需要 施加 更 强 的 条 件 , 如 sup > B,p,(z) -g(x) 


某 些 a >0, 其 中 S 是 一 个 紧 集 。 这 通常 需要 未 知 函数 z( : ) 直到 一 定 的 阶 数 都 
可 微 。 我 们 已 知 许多 序列 函数 满足 必要 的 逼近 性 质 。 例 如 , AR i R 
|z'| (P, (x) =x') ,三 角 函 数 和 样 条 函数 都 是 完全 可 以 接受 的 。 一 个 样 条 函 
数 是 分 段 多 项 式 函 数 ,并 且 分 段 线性 函数 和 分 段 三 次 多 项 式 ( 样 条 ) 函数 都 是 流 
行 的 选择 。 当 使 用 一 个 震级 数 时 ,需要 为 序列 中 的 最 高 次 值 (highest term ) 选择 
KK 值 ; 当 使 用 一 个 样 条 函数 时 ,需要 选择 节点 数 ,比如 ,总 共处 个 节点 。 我 们 下 
面 证 明 g(，* ) 的 一 致 估计 要 求 当 n 一 % 时,K 一 % ,K/n—e 。 这 里 Kn 的 作用 类 
似 于 核 方法 里 的 平滑 参数 h. 

最 简单 的 序列 基础 函数 是 震级 数 ,|1,x, 盖 ,…|。 然 而 ,基于 震级 数 的 估计 
对 一 些 异 常 值 是 敏感 的 ,出 于 这 个 原因 , 笑 级 数 不 常用 于 非 参 数 序列 估计 。 相 
反 , 局 部 分 段 多 项 式样 条 是 最 流行 的 选择 。 一 个 + 阶 单 变量 B 样 条 基本 函数 可 
以 给 出 为 ( 见 Chui(1992, 第 4 章 ): 


B (xl ty t) rer | Ji max(0,x = £) ]™ 


a™'(r—-1)!: 





= O(K™"), 


(15.2) 
HEP tnt, 是 在 下 支撑 集 上 的 均匀 间隔 设计 节点 。 当 r=2 时 , 式 (15.2 ) 给 
出 了 一 个 分 段 线性 样 条 ,r=4 时 给 出 了 一 个 分 段 三 次 样 条 ( 即 三 阶 多 项 式 ) 。 
考虑 《的 取 值 在 单位 区 间 [0,1] 的 情况 。 假 定 我 们 决定 将 的 支撑 分 为 
五 个 相等 间隔 (m =5 是 在 XX 支撑 里 的 子 区 间 数 目 ) 的 区 间 ( 有 6 个 节点 ) ,因此 
节点 之 间 的 距离 将 是 a=1/m=1/5 =0.2。 对 于 r=2( 分 段 线性 样 条 ) ,我 们 可 
以 有 4 个 函数 完全 位 于 单位 区 间 内 。 但 是 ,对 x* =0 以 及 x =1 时 ,这 4 个 基础 函 
数 的 线性 组 合 无 法 生成 非 零 函 数值 。 为 了 放宽 这 一 限制 ,我 们 在 支撑 每 侧 的 外 
面 添加 2 个 节点 ,这 样 总 共有 8 个 节点 。 这 导致 总 共 8 个 节点 具有 6 个 基础 函 


”基础 函数 可 能 依赖 于 上 , 且 应 被 写成 | pu (x,) l ;然而 ,为 了 表述 简单 ,下 面 我 们 省 略 了 下 标 卡 。 
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%1, B K=6=r+m-1(r=2,m=5), K 15.1 画 出 了 这 6 个 基础 函数 。 如 果 我 
们 选择 r=4( 三 次 样 条 ) ,因为 每 个 基础 函数 将 取 4 个 子 区 间 。 我 们 将 只 有 两 
个 函数 完全 位 于 单位 区 间 内 。 我 们 在 单位 区 间 每 侧 都 扩展 3 个 额外 的 节点 , 导 
致 总 共有 12 个 节点 ,此 处 考虑 了 8 个 基础 函数 , 即 K=8=r+m-1(r=4,m = 
5) ,它们 在 图 15.2 中 被 画 出 。 注 意 当 n 一 % 时 ,区 间 数 m 将 会 趋 于 无 穷 , 并 且 
因为 r 是 固定 的 ,基础 阴 数 的 数目 也 会 趋 于 无 穷 (K=r+m-1)。 

由 图 15.1 和 图 15.2 可 以 看 到 ,基础 函数 对 于 所 有 的 * 值 总 和 为 1。 


B,(xlto,...,t,) 





图 15.1 一 个 r 阶 B 样 条 基础 函数 ,有 上 个 子 区 间 ,Xe[0,1] ,r=2,K =5 
0.7 
0.6 


0.5 


0.4 


B,(xlto,...,t,) 


0.3 





图 15.2 一 个 r 阶 B 样 条 基础 函数 ,有 上 上 个子 区 间 ,Xe[0,1] ,r=4,K=5 


对 于 一 般 多 元 回归 模型 ,Xe R", 可 以 使 用 多 元 序列 函数 来 通 近 g(x)。 例 
如 ,我 们 可 以 使 用 一 元 样 条 函数 (比如 张 量 样 条 ) 去 构建 多 元 基础 函数 。 当 
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m A s = R 8 g 5 2 


q =2 BF, ERRE RREH |l,x ,x, ,x? ,x,x, ,x;，"…|。 对 于 样 条 函数 ,如 果 
(x,,%, ) 的 域 (domain) 是 有 界 的 ,我 们 可 以 变换 这 些 数据 使 得 (x, ,x, ) 都 落 在 一 
个 矩形 内 ,比如 (x z.) e [a,b] x [c,d] ,然后 可 以 使 用 一 元 样 条 函数 的 乘积 去 
构建 多 元 样 条 基础 函数 。 如 果 这 个 域 不 能 转换 为 一 个 矩形 ,可 以 使 用 一 个 一 般 
多 元 样 条 基础 函数 逼近 g(x) ;参见 Chui(1988) 和 Eubank(1999 ) 关 于 一 般 多 元 
样 条 函数 的 构建 。 
我 们 现在 讨论 怎样 用 序列 方法 来 估计 ela). pO RRA KAE K 
数 的 Kxl RORE XER 是 一 个 连续 变量 )， 
p'(z) = (p (=), ,pr(%)) (15.3) 
A PRI n x K 阶 和 矩阵 ,其 第 i 行 由 p” (XX,) 给 出 , 即 
P= [p'(K rnp I] 
式 (15.1) 可 以 重 写 为 
Y = p'(X.)'B + e, (15.4) 
其 中 e =gz(X)-p' (X) 6+u, Hl 2E nh PR A H im ip YE E RISI HI fr fE — 
Á Kx1 向 量 B 使 得 对 所 有 x,p"(x)'B-g(x) 一 0。 我 们 用 Y 关 于 P 的 最 小 二 
乘 回归 法 估计 B, 即 
Ê = (P'P)- P'Y (15.5) 
Hp ÆR ) 的 广义 道 ,Y 是 一 个 nx1 p| t. R i TY 表示 ,我 们 
用 下 式 估计 g(x): 
B(x) = p“(xz)'ñ (15.6) 


15.1.1 收敛 速度 


一 些 早期 的 关于 序列 估计 量 ( 如 基于 样 条 的 估计 ) 的 收敛 速率 的 结论 可 见 
Stone( 1985 , 1986 ) , 而 较 近 的 关于 序列 估计 量 的 研究 包括 Andrews (1991a)， 
Stone( 1994), Kooperberg, Stone 和 Truong( 1995 ) ，Newey( 1995 ,1997 ) Huang 
(1998a,1998b ,2001 ) ,以 及 de Jong(2002 ) 。 

Andrews( 1991a) 对 关于 可 能 非 同 分 布 数 据 的 非 参数 序列 估计 量 提 出 了 一 
般 的 收敛 速率 和 渐 近 正 态 性 结果 。 在 这 一 节 我 们 只 处 理 独 立 同 分 布 数据 并 且 
我 们 使 用 Newey(1997 ) 的 方法 。 为 了 建立 &(x) 的 一 致 性 ,我 们 采用 下 面 的 来 自 
Newey 的 假定 。 

假定 15.1 [X,Y | 是 独立 同 分 布 数据 ,与 |X,Y| 相同 ,var(Ylx) 在 XX 的 紧 
支撑 集 S 上 是 有 界 的 。 

假定 15.2 对 于 每 个 有 ,存在 一 个 非 奇 异常 数 和 矩阵 B, 使 得 P(x) = 
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Bp" (x). 
(i) 对 于 每 个 K, E[ P"(X.)P"(X)'] 的 最 小 特征 值 是 远离 零 有 界 的 。 
(ii) 存在 一 个 常数 数列 5 (K) 满足 条 件 sup | P(x) || <¿ (K), 其 中 = 


K(n) 使 得 当 næ BJ ,¿, (K)°K/n—0, 
(ii) 存在 a>0 使 得 suplg(x) -p" (x)'B.1=0(K")。 
(iv) `4 mn 一 o 时 ,K 一 o BK/n—0, 
以 下 定理 建立 了 &(x) 的 一 致 性 。 
定理 15.1 在 假定 15.1 和 15.2 下 ,可 得 


G) [[é(x) -g(z)]?dF(z) = 0,(K/n + K™)。 


Gi) n’ > [&(X,) -g(X,)] = 0,(K/n + Ke), 
(Hi) suplé(z) -g(z)| =0,(t,(K) (VK/Yn+K“)), 其 中 F(，) 是 的 


累积 分 布 函数 。 

定理 15. 1 已 经 被 Newey(1997) 证 明 。 因 此 我 们 在 15.6 节 只 提供 了 对 (i) 
的 证 明 。 在 15. 6 节 我 们 证 明 O (K/n) 项 对 应 于 方差 项 ,并 且 K““ 也 对 应 于 偏 
误 平方 项 。 对 于 样 条 和 知 级 数 序列 ,方差 项 并 不 直接 依赖 于 4, 而 偏 误 项 却 直接 
依赖 于 9 ,因为 我 们 可 以 证 明 如 果 z( x) J: m 次 可 微 的 ,那么 对 于 样 条 和 吞 级 数 
序列 ,a =m/g 。 这 与 核 方 法 不 同 但 是 与 -nn 方法 类 似 (因为 在 核 估 计 中 , 偏 误 
项 不 依赖 于 g, 但 是 方差 项 是 依赖 于 q 的 )。 于 是 ,在 定理 15.1 中 a=m/g。 定 
理 15.1(i) 和 (ii) 证 明 寡 级 数 和 样 条 序列 的 最 优 速度 是 O (n) ,这 等 于 
Stone( 1982 ) 的 速度 。 

Newey(1997) 给 出 了 使 得 假定 15. 1 和 15. 2 成 立 的 关于 震级 数 和 回归 样 条 
(B 样 条 ) 的 原始 条 件 。 

假定 15.3 

(i) 无 的 支撑 集 是 紧 连 接 区 间 的 笛 卡 尔 乘积 ,在 此 区 间 开 有 一 个 绝对 连续 
概率 的 概率 密度 函数 , 它 是 以 一 个 正常 数 上 有 界 并 远离 零 有 界 的 。 

Gii) g(x) FE X KERRE m 阶 连续 可 微 的 。 

假定 15.4 XX 的 支撑 集 是 [ -1,1]"。 

在 X 的 支撑 集 已 知 且 满足 假定 15.3(i) 的 情况 下 , XX 总 是 可 以 被 重新 缩放 
使 得 假定 15.4 成 立 。 

Newey( 1997, p. 167 ) 证 明 对 于 震级 数 , 假定 15. 3 (i) 意味 着 对 所 有 
K(P'(x) =Bp"(x) ,E[P"(X,)P"(X,)'] 的 最 小 特征 值 是 有 界 的 ;参见 假定 15.2, 
VAR ¿ (K) =0(K)。 同 样 ,接着 我 们 可 以 由 假定 15. 3(ii) 和 Lorentz(1966) 得 
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知 在 a =m/q 下 假定 15.2( 正 ) 成 立 。 于 是 ,假定 15.3 给 出 了 隐 含 于 假定 15.1 
和 15. 2 的 关于 震级 数 的 原始 条 件 。Newey(1997 ) 也 证 明了 假定 15.3 和 15.4 
意味 着 对 于 B 样 条 Zz,(K) = O(K) ,假定 15.1 和 15.2 成 立 。 我 们 在 下 面 的 推论 
中 总 结 这 些 结果 。 

推论 15. 1 

(i) 对 于 客 级 数 , 如 果 假 定 15.1 和 15. 2 满足 并 且 当 n 一 % H}, K /n 一 0 , 那 
么 ,如 果 用 代替 ¿ (K) , 则 定理 15. 1 成 立 。 

Cii) 对 于 B 样 条 ,如 果 假 定 15. 1、15.3 和 15. 4 都 满足 并 且 当 n— = 时 ， 
K'/n—0,JEZ , 当 用 VK 代替 (KK) 时 ,定理 15. 1 成 立 。 

推论 15.1 表明 定理 15. 1 的 结论 在 关于 竹 级 数 和 样 条 的 原始 条 件 下 成 立 。 


15.2 序列 项 天 的 选择 


Li( 1987) 研究 了 下 面 三 个 著名 的 关于 选择 K 的 过 程 ( 也 可 见 Wahba 
(1985) ) 。 


(i) Mallows 的 C (或 者 C,) (Mallows(1973 ) ) :选择 以 最 小 化 
K = arg minn“ Y [Y - ë(X )]° +20°(K/n) (15.7) 
Ju oè tu, 的 方差 。 在 实践 中 ,我 们 可 以 通过 52 =a Y iâ, =Y, - (X), 
来 估计 o°. 
(ú) 广义 交错 鉴定 方法 (Craven 和 Wahba(1979) ) :选择 下 以 最 小 化 
n" YY, - (X) 


Ku = arg min (1 KR/ (15.8) 
(iii) 去 一 交错 鉴定 方法 (Stone(1974) ) :选择 上 以 最 小 化 
CV, = X [Y - £ ,(X,) ]° (15.9) 


HP g (X) =p (X)'6 ,6 U =[P'P ]' P Y WD BPB AUCX,.Y) 
得 到 。 

注意 CCV 和 C 方法 在 计算 上 都 比 去 一 交错 鉴定 方法 简单 。 

令 G6. 表示 n x1 向 量 ,其 第 i 个 元 素 是 5E(X )。 接 着 我 们 知道 G6， = 
P(P'P)-…P'Y=M.Y, 其 中 M, =P(P'P)…P' 是 nxn 投 射 矩 阵 。 事 实 上 ,在 C， 
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和 GCV 目标 函数 的 最 初 的 形式 中 ,K 是 [LM.,]。 然 而 ,因为 M. 是 一 个 投射 矩 
阵 ,我们 有 
tr[M ] =tr[P (P'P) 'P'] =tr[P'P (P'P) `] =tr(1,) =K 
Li(1987) 证 明 前 面 的 三 种 过 程 都 是 渐 近 等 价 的 ,并 且 这 三 种 方法 从 下 式 意 
义 上 来 说 都 可 以 得 到 最 优 的 平滑 。 


flé) - g(a) 'aF(a) 
inf, flé) -g(x)] dF(x) 


Hp g(x) =&(x) 正 如 式 (15.6) 中 所 定义 的 ,对 于 一 类 成立, 并且 &;(x) 是 
使 用 上 面 所 说 的 方法 中 的 一 种 选择 所 得 到 的 g(x) 的 序列 估计 值 , 即 在 式 
(15.10) 中 , K= K ,或 者 人 =K o RE K = Kaye 

等 式 (15. 10 ) 说 明 在 渐 近 加 权 积 分 平方 误差 等 于 可 能 的 最 小 加 权 积 分 平方 
误差 的 意义 上 ,上述 三 种 方法 中 的 任意 一 种 都 可 以 得 到 对 于 天 的 最 优选 择 。 

当天 是 最 优 的 选择 时 ,序列 估计 量 的 渐 近 正 态 结果 是 很 难 去 建立 的 。 这 是 
因为 偏 误 首 项 很 难 计 算出 来 。 我 们 知道 bias(g8(x)) =0(K")(a=m/g,g(* ) 
jé m 次 可 微 的 ) ,但 是 对 于 偏 误 首 项 ,比如 说 对 bias(g(x)) = B(x)K + 
o(K“) 中 的 B(x) ,是 很 难得 到 一 个 准确 的 结果 的 。 Zhou, Shen 和 Wolfe( 1998) 
在 某 些 严格 条 件 下 ,如 节点 是 渐 近 等 间隔 的 ,以 及 样 条 的 自由 度 m 等 于 p - 1, 
对 属于 C"( 即 对 于 回归 函数 来 说 有 连续 的 p 阶 导数 ) 的 一 元 样 条 回归 函数 得 到 
一 个 渐 近 偏 误 首 项 表达 式 。 关 于 一 般 情 形 下 使 用 样 条 的 渐 近 偏 误 的 困难 更 加 
详细 的 讨论 见 Huang(2003)。 因 此 , 当 K 是 最 优选 择 时 ,一 般 的 时 间 序 列 估 计 
值 的 渐 近 正 态 结果 是 得 不 到 的 。 然 而 ,如 果 引 入 一 个 平滑 不 足 条 件 ,我们 很 容 
易 就 可 以 得 到 一 个 时 间 序 列 估计 值 的 渐 近 正 态 结果 。 


15.2.1 渐 近 正 态 性 


给 定 5&(x) 的 偏 误 首 项 表达 式 不 可 得 ,为 了 得 到 5E(x) 的 渐 近 分 布 , 我 们 要 
引入 平滑 不 足 条 件 , 即 我 们 假定 “=o(K/n)。 于 是 , 偏 误 平方 比方 差 项 有 更 
小 的 阶 ,使 得 Vn/K[&8(x) -g(x) ] 有 一 个 渐 近 的 零 均 值 。 

假定 15. 5 

(i) E| [y-g(x)] lx] 是 有 界 的 ,并 且 var(ylx) 远 离 零 有 界 。 

(ü) K“ =o((K/n)'2) , 

给 定 平滑 不 足 条 件 , 由 引 理 15.2 的 (P'P/n) sQ +o (1)=1+0 (1) ,容易 
看 出 &(x) 的 渐 近 方差 是 mV ,其 中 

V. = p' (x)'Q''XQ ''p'(x) = p'(z)'Xp'(x) 


(15.10) 
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因为 

Q= E(p'(X)p'(X)' = 1 

X= E[p'(X )p' (X )'oe (X )] 
Bot(X)=E(Gu IX). E V, =0(K), 比 如, 如果 误 差 是 条 件 同 方差 的 , 即 
E(w lX)=E(w)=0o ,那么 V =0°p" (x)'p'(x) =0(K)。 因 此 ,var(&#(*))= 
O(K/n) ào 

定理 15.2 在 假定 15.1、15.2 和 15.5 下 
Jatt (g(x) - g(x)) Š N(0,1) 

其 中 

P. = p“ (<)'Ó0 "XQ 'p*(<) 


Q 


i > p (X)p'(X )' 
X= n” Y p(X)p" (X) 8 


ú = Y -p' (X )'B 
定理 15.2 是 Newey( 1997) EM 2 的 一 个 特殊 情形 ,其 中 也 包括 了 一 个 £! 
一 般 线性 函数 的 情形 。 关 于 条 件 同 方差 误差 情形 ,定理 15. 2 的 证 明 留 作 习题 
(见习 题 15.1). 


15.3 一 个 部 分 线性 模型 


Donald 和 Newey(1994) 考 虑 使 用 序列 方法 估计 一 个 以 下 形式 的 部 分 线性 
模型 
Y =Z'y+g(X) +u, (15.11) 
Hp Z 是 y 维 的 ,X, 是 g 维 的 。 
序列 方法 涉及 对 于 某 些 Kx1l 向 量 B 用 p(x) = (p (z),p,(z)," p (z))' 
的 线性 组 合 , 比 如 p"(x)'B, 甬 近 未 知 函数 g(x) 。 重 写 式 (15. 11) 可 得 
Y =Z y +p"(X,)'B +e, (15.12) 
其 中 e, =zg(X,) -p' (XX,) 和 B+u,, 我 们 用 Y, 关 于 (2Z',p"(X,)') 的 最 小 二 乘 回归 
法 估计 yy M B, BI 


£ = H = (W'W)''W'y, W= (Z,P) (15.13) 


其 中 Z 是 nxy 维 的 ,P 是 nxK 维 的 。 


第 15 章 非 参 数 序列 方法 


使 用 分 块 递 (partitioned inverse) ,我 们 可 以 证 明 ( 见 习题 15. 2): 
y = [(Z - 2)'(Z - 2)] (Z - Z)'(Y - P) (15.14) 
其 中 Z 是 一 个 mxy 向 量 ,其 第 i 行 是 2,=p" (X,)'(P'P) 'P'Z „B E(Z IX.) 


的 序列 估计 值 ,而 了 是 一 个 nx1 向 量 ,其 第 i 个 元 素 由 Y=p" (X,)'(P'P) 7'P'Y 455 


给 出 , 即 ECY IX ) 的 序列 估计 值 。 

等 式 (15. 14) 与 在 第 7 章 中 给 出 的 半 参 数 核 (或 者 k-nn) 估 计 值 有 同样 的 形 
式 。Donald 和 Newey( 1994 ) 证 明了 下 面 的 结果 。 

定理 15.3 在 假定 15.1 和 15.2 下 ,并 且 假 定 (K/n+K-“) =o(n `!) BE 
么 Vn(》-y) 一 N(0,V) 依 分 布 收敛 ,其 中 VV 与 第 7 章 定理 7.1 中 的 定义 相同 。 

对 定理 15.3 的 证 明 在 15.6 节 给 出 。 

除了 假定 15.1 和 15. 2 外 ,定理 15.3 还 要 求 附 加 的 假定 :K/n + K ?° = 
o(n"!'2) , 即 非 参 数 序列 估计 均 方 误差 有 比 n-"”“ 更 小 的 阶 。 这 和 我 们 在 第 7 
章 中 引 人 的 半 参 数 核 方 法 所 用 的 条 件 是 类 似 的 ,在 那里 我 们 也 是 假定 非 参 数 估 
HARA H n Eh, 

关于 g(x) 的 非 参数 估计 值 由 下 式 给 出 

(x) = p“"(x)'B (15.15) 

TWEN p = (P'P) 'P'(Y-Z y), ŒE y-y= 0 (n 2), gC) BJ WE 
分 布 是 由 区 (xz*) =p" (XX )'B 决定 的 ,其 中 B =(P'P)"'P'(Y -2Zy)。 显 然 ， 
5(x) 与 定理 15.1 有 同样 的 渐 近 分 布 。 于 是 ,我 们 知道 当 & (x) 如 式 (15. 15) 
中 定义 时 ,定理 15.1 成 立 。 也 就 是 说 ,用 FF(，) 表 示 辣 的 累积 分 布 函 数 ,那么 


G) flèt) - g(x)] dF(x) = 0 (K/n + K™) 


Cii) nm” > [&(X,) - g(X,)]° = 0,(K/n+K™) 
(iü) suplê(x) -zg(z)| =O,(¿,((K)(VK//n +K") ) 


15.3.1 一 个 可 加 的 部 分 线性 模型 


在 第 9 章 我 们 讨论 了 使 用 核 方 法 的 可 加 部 分 线性 模型 的 估计 。 在 这 一 节 
我 们 考虑 用 序列 方法 来 估计 这 些 模型 。 与 使 用 需要 边际 积分 的 核 方法 相 比 ,使 
用 序列 方法 估计 可 加 的 部 分 线性 模型 拥有 很 多 优势 。 核 方法 涉及 首先 估计 一 
个 高 维 的 非 参数 模型 ,然后 使 用 边际 积分 的 方法 得 到 一 个 潜在 函数 的 低 维 估计 
量 。 然 而 ,这 种 方法 可 能 导致 有 限 样本 的 效率 损失 ,因为 可 加 结构 这 个 事实 并 
没有 在 最 初 的 估计 过 程 中 用 到 。 相 反 ,序列 方法 在 整个 估计 过 程 中 可 以 很 容易 
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地 引入 可 加 结构 。 
考虑 下 面 的 一 个 可 加 的 部 分 线性 模型 : 
Y = Z'y +g (X) +g,(X,) + +gL(X, ) +u (15.16) 
其 中 Z 是 包含 一 个 常数 项 的 随机 变量 的 rx1l 向量, y = (y,,…,y,) 是 一 个 关 
于 未 知 参数 的 rx1 向 量 ,并 且 X EREA q (qz 1,l=1,--,L) I MX, 表示 从 


(Xon X ) 得 到 的 非 重 春 变量。X 的 维度 是 4 上 且 L<q<y q. E(u, 1X,,Z,) =0 


且 g,(*),…,g,(， ) 都 是 未 知 的 平滑 函数 。 
单独 的 函数 g,(。 ) (1=1,…,L) 在 没有 施加 一 些 识别 条 件 时 不 能 被 识别 。 
对 于 核 方法 ,一 个 方便 的 识别 条 件 是 对 所 有 1=2,…,L, 施 加 E[z (X )] =0。 
对 序列 方法 的 识别 条 件 可 以 通过 选择 一 些 在 序列 逼近 基础 函数 中 很 容易 引入 
的 规范 化 规则 来 得 到 。 比 如 ,在 一 个 没有 交互 作用 项 的 可 加 模型 中 ， 
g(x stx) = c+g,(x,) + + g (x) 
其 中 eR ,我 们 可 以 使 用 g& (x, =0) =g (0) =0 作为 识别 条 件 。 
类 似 地 ,对 于 一 个 具有 二 阶 交互 项 的 可 加 模型 情形 ,我 们 有 
BR st) = c + S m (z) + > Dm) (15.17) 
式 (15. 17) 的 表达 形式 不 是 唯一 的 ,但 是 我 们 可 以 通过 施加 下 面 的 识别 条 
件 来 做 到 : 
m (x, =0)=m(0) =0, j=1,.…,g 
m,(0,x,) = m(x ,0) =0, 所 有 x x, 值 (1 <j < l1=< q) (15.18) 
原则 上 我 们 总 是 可 以 在 通 近 基础 函数 上 施加 识别 条 件 。 令 N = 11,2,…| 
表示 正 整数 集合 。 如 果 我 们 使 用 | $8,(%,)1,。 ,j=1,…,g 的 一 个 有 限 线性 组 
合作 为 基础 函数 去 通 近 可 加 函数 m (x ) ,上 面 的 识别 条 件 意味 着 我 们 应 该 使 用 
16,(%)1,.w 的 一 个 有 限 线性 组 合 去 逼近 m (x ) ,其 中 对 所 有 (e N, ,有 
$,(x,=0) =$,(0) =0。 然 后 我 们 可 以 使 用 [6,(%,)$,(%,) 1,。。w 的 一 个 有 限 线 
性 组 合 逼 近 mm,(x ,zx ) 。 比 如 ,考虑 一 种 多 项 式 ( 宕 级 数 ) 序 列 有 $, (x) = xz 的 
情形 。 关 于 m(%) 的 逼近 函数 是 |x | = A 1( 没 有 常数 项 ) 的 一 个 
有 限 线性 组 合 ,使 得 ,(0) =0' =0 WWE. 3Ë H BE m, (x,a, ) 的 基础 函数 是 
lahun = ao tp o | 的 一 个 有 限 线性 组 合 。 由 于 通过 
式 (15. 18) 施 加 条 件 , 副 近 函 数 具 有 性 质 $ (x. =0)g, (x) =¢,(x,)ġ,(x,=0) = 
0。 可 以 直接 对 有 更 高 阶 的 交互 项 的 可 加 函数 将 上 面 的 识别 条 件 一 般 化 。 
现在 我 们 讨论 y 的 识别 条 件 。 对 于 任何 随机 变量 (向 量 ) 4,, 用 E,( A,) 表 
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示 .4 fE n[ Jl 58 38k s jg E 0082 93. ERA KT DLS ih.E (4,) 是 4 的 
最 接近 的 函数 (从 均 方 误差 的 意义 上 来 说 ) 。 

注释 15.1 QV =A -E (A), IA E (V) =0。 也 就 是 说 ,对 任意 的 随 
机 变量 (向 量 )4, ,我 们 可 以 正 交 分 解 .4, = E. ( A.) +V, JEP E CA.) e gRV, L 
g, BI E (V) =0。 

下 面 我 们 给 出 一 类 可 加 函数 的 定义 。 


定义 15.1 WRG) Ea) = 各 (zi) ,各 (xi) 在 其 支撑 集 S, 上 是 连续 的 ， 其 


中 S, 是 R “(1=1,…,L) 的 一 个 紧 子 集 。(ii) Y E[€(x,)]? < æ, (iii) £ (0) = 


0,1=2,… ,上 ,我 们 说 一 个 函数 &(x) 属 于 一 个 可 加 类 函数 9, (te g). 
当 (x) 是 一 个 向 量 值 函数 时 ,如 果 & 的 每 个 分 量 都 属于 9, ,我 们 说 上 es G o 
用 向 量 矩 阵 表 示 法 ,我 们 可 以 把 式 (15. 16 ) 写 为 
Y= Zy +g, tg, t" +g, +U= Zy +g + U (15.19) 
其 中 yy 和 U 都 是 nx1 向 量 ,其 第 i 个 分 量 由 Y, 和 分 别 得 出 ,Z 是 n xr 向量， 
其 第 i 个 分 量 由 Z 给 出 ,并 且 g 是 nx1l 向 量 ,其 第 i 个 分 量 由 g,=g(X.)= 


> z,(X,) 给 出 。 
我 们 使 用 K, 函数 的 一 个 线性 组 合 去 逼近 g (zx ) (1=1,…,L)。 
p, (x) = (pr (x.),"" pu (s,.))' 


因此 ,我 们 使 用 K = Y K, 83800 — TEB Q (ph (x), pi (x,)') = 


p" (z) ' KWE g(x) =g (x,,…,%,) = Y g(a) MERR pa) RA AF 


性 质 : 

(i) p'(*=) e g,; 

(ü) 当天 增加 时 (对 所 有 1=1,…,L) , p(x) 的 一 个 线性 组 合 在 均 方 误差 
意义 上 可 以 任意 好 地 逼近 任何 ge9,。 

我 们 引入 一 些 记号 。 定 义 

p, = (pi'(s,)," op (x )) = 1,--,L), P = (p,,"",P,) 
(15.20) 

注意 p, 是 nxK 维 的 , 且 P 是 nxK 维 的 。 

令 M=P(P'P)-P', 其 中 (* ) RER ) 的 任 一 对 称 广义 逆 。 对 于 一 个 
n x1 或 者 n xr 和 矩阵 4, 定 义 4 =MA。 接 着 用 M 左 乘 式 (15.19) 可 得 
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& ye m X B x 你 se m 
y=Zy+g# + Ü (15.21) 
用 式 (15. 19 ) 减 式 (15.21) 可 得 
y- P e(z- S)y+8g- p+ U—- Ü (15.22) 


我 们 通过 》- 了 关于 Z - Z 的 最 小 二 乘 回归 估计 y, 即 
; = [(z- Z)'(z- 2)]- (2- Z)'(y- X) (15.23) 


REH gla) = p(x)'B 估 计 g(x) = Y g,(%,) ,其 中 有 被 给 出 为 
Ê = (P'P) ` P'(y- Z+) (15.24) 


在 下 面 给 出 的 条 件 下 , (P'P) 和 (Z- Z)'(Z- Z) 都 是 渐 近 非 奇异 的 。 于 
是 , 当 我 们 取 极 限 min{K ,…,K | 一 wm 时 ( 当 n 一 w 时) ,所 有 的 广义 逆 事 实 上 都 


ETH, EEZ- Z)'(Z- Z) 和 (P'P) 都 是 非 奇 异 时 ,在 式 (15.23) 和 
459” 式 (15.24) 中 给 出 的 》 和 8B 在 数值 上 等 于 由 y 关 于 (Z,P) 做 回归 时 得 到 的 最 小 


二 乘 估计 值 。 在 有 限 样本 的 应 用 中 , (2- Z)'(Z- Z) 和 /或 (P'P) 可 能 是 奇 
异 的 。 然 而 ,可 以 去 掉 多 余 的 回归 元 使 得 这 些 矩 阵 非 奇异 。 

接 下 来 需要 建立 关于 Y 的 渐 近 分 布 和 有 (xz) =p“ (x) '8 E g( x) BJ W @ B E 
的 假定 。 

假定 15.6 

(i) 与 (Y,X,2) 一 样 ，(Y ,XX Z), e, (Y, X ,Z ) 是 独立 同 分 布 的 ， 
(X,Z) 的 支撑 集 是 民 上 的 紧 子 集 。 

(ii) EX 0(x) =E(ZIX =x), 0(x) Ñ var( YIX =x,Z =z) Æ(X,Z) BJ 2 P£ 
集 上 都 是 有 界 函 数 。 

假定 15.7 

(i) 当 f=g 或 者 f=0, 时 (其 中 s=1,…,r 且 0(x) =E(Z 1x) = (0,(x)),…， 
9,(x))') FERE 6, >0 (1=1,…,L), p=Bx = (Bro Ba) ,使 得 当 
min| K ,天 ,一 "oo 时 ， 


oa -ora = o| $a) 
(i) ín — æ 时 , Va( Y K) 0 
假定 15.6 和 15. 7(i) 在 估计 可 加 函数 模型 的 文献 中 是 标准 的 。 假 定 
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15.7(ii) 要 求 数据 是 平滑 不 足 的 ,因此 偏 误 估计 有 比 -更 小 的 阶 。 

SE (Z ) 表 示 在 可 加 函数 空间 9 ,内 Z, 的 投射 (在 L, 范 数 下 ) 。 也 就 是 说 ， 
E (2Z.) 是 一 个 属于 9,( 它 具有 一 个 可 加 的 结构 ) 的 元 素 并 且 它 是 在 均 方 误差 意 
义 上 在 9, 内 的 所 有 随机 函数 中 最 接近 Z 的 。 接 下 来 的 定理 给 出 了 7Y 的 渐 近 
分 布 。 

定理 15.4 定义 e, =Z -E (Z), PERE DTE ee ] 是 正定 的 ,那么 在 
假定 15.1.15.2.15.6 和 15.7 下 ,我们 有 

(i) Vn(y -7y) 一 N(0,Z) 依 分 布 收敛, 其 中 

X = 8"09", 0= Eco, (XZ)e,e,)] 
o` (x,z) = E(u | X = x,Z =z) 
(ü) XW0—4-—3fhlFARO[ DUH X = @ ' 00 ' 给 出 ,其 中 
=n" (Z, -Ž,) (Z, -Ž)', Q =n 5 ğ(Z, -Ž,) (Z, -2)' 


Ž' J: Z=M Z(M=P(P'P) P')W03S ií, H ú =Y -Z y-6(X ) 。 
定理 15.4 的 证 明 在 Li(2000 ) 中 给 出 。 
$=E(se') 是 正定 的 是 关于 y 的 一 个 识别 条 件 。 正 如 第 9 章 所 讨论 的 ， 


这 个 条 件 比 当 忽略 g,(%*,) 的 可 加 结构 时 识别 y 需要 的 条 件 要 弱 一 些 。 
EIZ v, = Z, - E(Z,1X,) URRE X n, =E(ZIX) - E,(Z,) i 8, =v, +m. 
使 用 BE(w IX ) =0, 我 们 得 到 
@ = E[(v, + m,) (x, + n.) '] = E(vv) + E(m,n, ) 
于 是 ,E(wv') 是 正定 的 或 者 E(n.n' ) 是 正定 的 都 意味 着 0 是 正定 的 。 注 


意 当 估计 y 时 如 果 我 们 忽略 y&,(x) 的 可 加 结构 ,BE(w' ) 是 一 个 正定 矩阵 是 必 


要 的 识别 条 件 ( 对 于 y) 。 于 是 ,通过 使 用 模型 有 一 个 可 加 的 部 分 线性 结构 的 信 
息 ,我 们 可 以 把 对 y 的 识别 条 件 弱 化 为 D 是 一 个 正定 矩阵 。 

当 误 差 是 条 件 同方 差 时 , 即 E(u IX ,Z ) =E(u') =o。 那 么 ,在 Va(7 - 
y) 的 渐 近 方差 的 道 等 于 半 参 数 有 效 边界 的 意义 上 ,7 是 半 参 数 有 效 的 。 

有 意思 的 是 ,我 们 观察 到 当 E(X1z) 不 是 一 个 可 加 函数 时 ,即使 X 是 一 个 关 
于 Z( 即 E(ZIX) =2Z) 的 确定 性 函数 ,y 仍 可 识别 。 考 虑 一 个 简单 的 情形 L =2， 
Hp X AX RERE. $ Z =X X, ,于 是 模型 (15. 16) 变 成 

Y = Zy +B(X,) + g,(X,.) +u (15.25) 
式 (15.25) 中 的 参数 y 是 可 被 识别 的 ,因为 Z = X X, R E— 4 X: T XA 
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X, 的 可 加 可 分 离 的 函数 。 模 型 (15. 25 ) 的 优势 在 于 它 只 涉及 一 维 的 非 参 数 回 
归 函 数 ,因此 它 避 免 了 维 数 诅 吕 。 它 也 允许 一 个 交互 项 (以 参数 形式 进入 模型 ) 
并 且 因 此 它 比 不 允许 交互 项 的 可 加 函数 更 加 具有 一 般 性 。 在 实践 中 ,我 们 可 以 
以 任何 另 一 个 已 知 的 ( 非 可 加 的 ) (X,,,X, ) 的 函数 代替 交互 项 Z =X Xo ER 
如 果 我 们 忽略 可 加 结构 g(x) =g (ax) +g,(x,), 则 在 式 (15.25) 中 是 不 能 被 
识别 的 。 

下 面 的 定理 给 出 了 l) =p" (x) #| gl) = Sg,(%,) 的 收敛 速度 。 

定理 15.5 在 假定 15.6 和 15.7 下 , 令 S 表 示 z 的 支撑 ,我 们 有 


(i) sup! (x) - g(x) 1= O,(¿,(K)) [VR vn + > K," | ! 


(ü) a! Y [&(X) -g(X,) J? = 0 (K/n + Ș K”); 
ist izi 


(iii) flé) - g(x) ]’dF(x) 
累积 分 布 函数 。 

定理 15.5 基本 上 说 明 &(x) 到 g(x) 的 收敛 速度 是 相同 的 ,无 论 y 是 否 已 知 
或 者 是 否 在 构建 &(x) 的 时 候 使 用 估计 值 Y。 这 是 可 以 预期 的 ,因为 了 -7y = 
0 (n~?) , 它 比 非 参数 (序列 ) 估 计量 比如 &(x) 的 收敛 速度 要 快 。 

我 们 也 可 以 通过 名 (x,) =p. (x,)'B, 来 估计 g(x,) ,其 中 有 是 一 个 Kx1 
向 量 , 它 可 以 从 B=(B',…,B, ) ' 得 到 ,并 且 S, 表 示 它 的 支撑 。 

当 x 都 是 标量 并 且 每 一 个 未 知 函 数 (g,(，* ) ) 都 是 < 阶 可 微 时 ,我 们 可 以 选 
择 所 有 具有 相同 阶 数 的 天 , 即 对 所 有 !=1,…,L,K, =K/L, 并 且 对 于 短 级 数 关于 
K 的 条 件 变 成 K'/n—0 以 及 nK -0( 要 求 c>372) ,而 对 于 样 条 K'/n—0 和 
nK -一 0 ,要 求 c>1l。 


15.3.2 非 线性 可 加 成 分 的 选择 
考虑 一 个 非 独 立 数据 的 可 加 模型 如 下 : 


O (K/n + © K), JEP F( - ) 3 Z ñ 


Y = jp, + > (X) +u (15.26) 
j=1 


其 中 函数 z (。 ) 形 式 是 未 知 的 。 我 们 可 以 再 次 引入 &(0) =0 (j=1,…,d) 作 
为 识别 条 件 。 我 们 假定 只 有 变量 |X, ,je s} ,se |1,…,d| 的 一 个 子 集 ,有 尽 可 
能 小 的 基数 g<d, 提 供 了 (几乎 ) 与 X= (X ,…,X,,) 相 同 的 关于 的 信息 ,也 
就 是 说 
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E(Y | x, = x,j € s) = E(Y|X, = x) ,几乎 所 有 x (15.27) 

被 选择 的 变量 被 称 为 “显著 性 变量 ”。 如 果 蕊 只 包含 了 的 滞后 值 ,被 选择 

的 滞后 期 被 称 为 "显著 性 滞后 ” 2 Huang 和 Yang(2004) 建 议 使 用 样 条 ( 即 非 参 数 
序列 方法 ) 去 估计 未 知 函 数 ( 即 g (* ))。 为 了 明确 ,我 们 写成 


gX) = Dy,B,(X,) (15.28) 


其 中 B (O) (1=1,…,L) 是 对 一 个 给 定 自由 度 和 节点 序列 ,满足 识别 条 件 
B,(0) =0 的 8 样 条 基础 函数 。 我 们 通过 最 小 二 乘法 估计 B。 和 y 系数 ,也 就 是 
最 小 化 准则 函数 


n 4 L, 2 
2. [Y - B, > > nB x) | (15. 29) 


令 B, 和 ,表示 最 小 化 式 (15. 29) 的 值 , g(x,) 的 基于 样 条 的 估计 值 由 下 式 
给 出 : 


L 


(X) = B, + > 7,B,(X,) (15.30) 
令 MSE 表示 在 集合 s 内 使 用 变量 的 子 集 对 均 方 误差 的 估计 , 即 
Le ~ E. _ PES- 
sl (15. 31) 


其 中 g, A 7, 都 是 B, 与 7, 的 最 小 二 乘 估计 量 ,并 且 对 jes,l=1,… ,L,Y, 的 估 
计量 只 使 用 了 基础 函数 B (X ) 的 子 集 。 

Huang 和 Yang(2004) 建 议 使 用 BIC 准则 选择 显著 性 变量 的 集合 , 即 选择 最 
小 化 下 式 的 变量 s 的 集合 : 


BIC = ln(MSE ) + ln(n) (15.32) 
其 中 = 1 + 》 工 是 在 序列 估计 量 中 的 (在 变量 :的 集合 内 ) 待 们 计 的 参数 数量 。 


因为 技术 上 的 原因 ，Huang 和 Yang(2004) 把 以 上 的 估计 问题 限制 在 一 个 
紧 集 内 。 令 5 表示 通过 BIC 准则 选择 出 的 变量 集合 ,并 且 令 s, 表示 显著 性 变量 
的 真 集 ,Huang 和 Yang 证 明 BIC 选择 准则 是 一 致 的 ,也 即 
limP[$ =s] =1 (15.33) 
也 就 是 说 , 当 样 本 容量 增加 至 无 穷 时 ,由 BIC 方法 选择 出 正确 的 变量 集合 
的 概率 收敛 于 1。 
当然 , 式 (15. 33) 依赖 于 显著 性 变量 集合 % 是 被 唯一 定义 的 。Huang 和 
Yang(2004) WEH HRE X = (X,，，…,X,,) 的 联合 密度 函数 在 XX 上 是 连续 的 ,so。 确 
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IN N šš $ x x a; $ Š 


实 是 被 唯一 被 定义 的 。 

Huang 和 Yang(2004 ) 报告 的 模拟 证 明 BIC 准则 对 于 选择 正确 的 显著 性 变 
量 集合 运行 很 好 。Huang 和 Yang( 2004 ) 也 采用 这 种 方法 选择 显著 性 滞后 期 ,其 
使 用 的 是 美国 季度 失业 率 数据 (1948 年 第 四 季度 到 2003 年 第 一 季度 ) ,对 数据 
取 了 四 阶 差分 从 而 消除 非 平稳 性 。 令 了 =r ,, -7,, 那 么 总 样本 大 小 是 n=217， 
[Y U 。 为 了 得 到 从 208 期 到 217 期 滚动 的 样本 外 预测 值 ,他们 舍弃 了 最 后 10 
个 观测 值 。BIC 方法 选择 了 2 个 显著 性 滞后 期 ,其 均 方 预测 误差 (MSPE ) 是 
0. 023 ,然而 一 个 同样 根据 BIC 选择 的 具有 5 个 滞后 期 的 线性 模型 给 出 的 MSPE 
是 0.058。 于 是 ,具有 2 个 滞后 期 的 非 参 数 可 加 模型 可 以 得 到 一 个 比 具 有 5 个 
滞后 期 的 线性 模型 小 50% 的 均 方 预测 误差 ,暗示 了 在 美国 失业 率 数据 中 显著 的 
非 线性 。 

Hirdle 等 (2001 ) 提出 一 种 可 供 选 择 的 (基于 小 波 的 ) 方 法 去 检验 是 否 某 些 
可 加 部 分 是 多 项 式 结构 的 (比如 线性 ) 而 不 用 设 定 剩余 部 分 的 结构 ,这 也 解决 了 
选择 显著 性 协 变量 这 个 问题 。 


15.3.3 用 一 个 已 知 的 联接 函数 估计 可 加 模型 


Horowitz 和 Mammen ( 2004 ) 考 虑 用 一 个 已 知 的 联接 函数 (link function) 来 估 
计 可 加 函数 : 
Y = Clc, +g,(Z,,) + + g,(2,)] +u, i=l1l,--,n (15.34) 
其 中 6G(， ) 是 一 个 已 知 的 联接 函数 ,g 是 未 知 的 单 变量 函数 。 我 们 讨论 如 何在 
第 9 章 的 边际 积分 法 的 基础 上 去 估计 式 (15.34) 。 边 际 积分 法 的 一 个 问题 在 于 
在 最 初 的 估计 过 程 中 必须 估计 一 个 4 维 函数 g(z) =E(Y |Z =z), 
序列 估计 方法 可 以 通过 使 用 一 个 可 加 基础 函数 很 容易 地 引入 可 加 结构 。 
然而 ,序列 方法 的 一 个 缺点 是 , 当 序 列 项 的 项 数 是 最 优选 择 时 , 它 的 渐 近 分 布 一 
般 是 未 知 的 ,因为 准确 的 偏 误 首 项 通常 都 是 未 知 的 。Horowitz 和 Mammen 
(2004) 的 方法 结合 了 序列 和 核 方法 的 优势 。 他 们 建议 在 第 一 步 使 用 序列 方法 
使 得 可 以 很 容易 引入 可 加 结构 。 然 后 ,在 第 二 步 中 ,可 以 使 用 核 方法 去 估计 单 
独 的 函数 z o 
假定 z 的 支撑 集 是 [ —1,1]°, Horowitz 和 Mammen ( 2004 ) 要 求 识 别 条 件 


| z.G)4; = 0, a=1,…,g。 令 |p,:1=1,…| 表 示 平滑 函数 在 [ -1,1] 区 间 
里 的 一 个 基础 。 施 加 在 p, 上 的 条 件 是 f p,(v)dv = O, 以 及 delta 函数 


| PCv)p,(v)dv = 6, 等 于 1( 如 果 1=j) 或 者 0( 其 他 ) ,于 是 ,对 所 有 a =1,…， 
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gz e [ -1,1] 以 及 某 些 合适 的 系数 9 ,可 得 (基础 函数 完成 了 ) 
g,(z,) = 2, 9.p (z.) (15.35) 
可 以 很 容易 检查 9，= | gs(z.)Pi(z.)dz。( 见 习题 15.5) 。 令 P (z) 828 


由 下 式 定 义 的 可 加 基础 函数 : 
P'(s) = [isp ii oep) DB p (a )]' 
(15.36) 


注意 P" 是 (hg+1) xl 维 的 。 令 Pr(z)9 逼 近 c + Y g.(z,)。 在 第 一 步 我 
们 估计 9 为 
0 = arg min n”! Y |Y, - G[ P(Z.) 0] |° (15.37) 
其 中 @eR"*' 是 一 个 紧 参数 集 。c, + g(z) 的 序列 估计 值 是 P'(zZ)0= ë, + 
ë (z) ,其 中 E, 是 6 的 第 一 个 元 素 。 
为 了 得 到 g。(z。) 的 第 二 步 估计 值 , 令 Z ARAM Z,, 时 的 Z, ,定义 


¿ (Z. ,) = ŞE) 


其 中 
z,(Z,) =p (Z,)'0,, p'(Z,) = (p, (Z,),--,p,(Z,))' 

H 0 是 对 应 于 产 (z) =(p,(z,),…,p,(z,))' 的 kx1 系数 向 量 。 令 o (e) = 

w(v/h) 是 一 个 单 变量 二 阶 核 函 数 。 令 G? (v) =3 6C(")/s ,j=1,2, 并 且 对 j= 

0,1, 定 义 

S. (Za) =-22 1Y,- G[ë, + g.(Z.) + 8.(2.)]| 
x gr z + g (z) + E (Zu) (Zu - z ) w, (Z, 一 Z.) 

(15.38) 

同时 对 j=0,1,2, 定 义 


SY Ga) =2 - G[ë, +C) + BL) IZ -2.) (2, - Z.) 


-27 DAL EEF A O +g (# 51! 


x G? [ë +£ mY) + AES E — s. Yu (s, = Z.) 
(15.39) 
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关于 g (z ) 的 第 二 步 估计 量 是 
ê (z) =8.(z.) 
Sa. (zo E ) Sioe (z g) - Sine (Zar Ë ) Saa (Za) 
O iais (z F) — S UE) 
由 式 (15. 40) 给 出 的 估计 量 有 一 个 很 好 的 直观 解释 。 如 果 E, 和 & ,都 是 e, 
Mg WEAN, g, (z ) 的 局 部 线性 估计 将 会 是 下 面 给 出 b. 的 值 ,其 中 (5,,6, ) 最 


小 化 下 面 的 目标 函数 : 


S. (zb ,6b,) = s: [YV - C[ē, +b, - b (Z, - z.) 


(15.40) 


+g (Z) lV w (z - Z.) (15.41) 
同时 注意 SU =əS /0b,(j=0,1) 是 在 5b =ë (z )#lb =0 Adha g. s' 


nja 


给 出 了 在 同一 点 估 值 的 8 的 二 阶 导数 。 估 计量 (15. 40) 是 使 用 一 个 Newton Jb 
又 的 结果 ,采用 初始 值 & =Z (z )，5 = 0, 逼 近 式 (15. 41) 右 边 的 最 小 值 。 为 
了 得 到 六 (z ) 的 渐 近 分 布 ,我 们 首先 定义 一 些 相关 的 等 式 。 定 义 


D(z,) = 2|c Le, + gz,) + gz) 1s 2,) dz, 
D (z ) = 2 JG [co + g.(z.) +zg,(z.)]'[Əf.(z.,z )/0z ldz, 
m(z) =G [c, + 8,(z,) +g,(z.)]g% (z.) 
+G [c +g, (z) +g, (z,) lg? (z) 
B.(z.) =2C;k,D, (z.) ' fm(z,,z,) 
x G' [c +g (z) +g (z) Iz) dz, 
V.(z.) = KCD, (z) ' fvar(u, 1 2)G™ Lg (z) 1.Gz) dz, 
其 中 <, = foo) B < = foy ae, 


在 一 些 正则 条 件 下 ,包括 h， =c n, kaen ,对 某 些 常数 0 <e,,e, <o 
以 及 0 < <1⁄30,3f R. G 和 g .是 二 阶 连 续 可 微 的 ，Horowitz 和 Mammen (2004 ) 
证 明了 下 面 的 结果 : 


Jh lè.) - z.(z.) -hip(z)] SNOV(z)) (15.42) 


进一步 地 ,对 于 a*s, /nh [8(z,)-g,(z,)] 以 及 /nh[&8(z)-g(z)] 都 是 
渐 近 独立 的 。 
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Horowitz 和 Lee( 2005 ) 进一步 扩展 了 Horowitz 和 Mammen (2004 ) 对 于 估计 
一 个 可 加 的 分 位 数 回归 模型 的 结果 。 文 中 他 们 建议 首先 使 用 非 参数 序列 方法 
(用 可 加 基础 函数 ) 来 估计 所 有 的 可 加 分 位 数 函 数 。 然 后 ,在 第 二 步 使 用 一 个 局 
部 多 项 式 核 方法 估计 一 个 单独 的 分 位 数 函 数 。 他 们 证 明 在 一 些 非常 普通 的 条 
件 下 这 些 估 计 值 有 相当 神奇 的 性 质 。 


15.4 部 分 线性 变 系数 模型 的 估计 


在 第 7 章 我 们 讨论 了 一 个 以 下 形式 的 部 分 线性 模型 : 


Y =vy +6(X) +u, i=l, e,n (15. 43) 

其 中 wy 是 参数 成 分 并 且 5(x, ) 是 一 个 构成 模型 非 参 数 成 分 的 未 知 函 数 。 这 个 
模型 可 以 扩展 为 半 参 数 变 系数 模型 

Y =o (X) +8(X) +u, 下 二 区 (15.44) 


其 中 y(x) 是 关于 的 未 知 的 平滑 函数 向 量 。 定 义 X = (1,v')' 且 令 B(x) = 
(ó(z),y (x)')', 则 式 (15.44) 可 以 更 紧 致 地 写 为 
Y = Z B(X) +u, B=1,,n (15.45) 
变 系数 模型 在 很 多 种 背景 下 都 是 适用 的 ,比如 说 ,在 一 个 截面 生产 函数 杠 
架 中 , = ( Labor, Capital, ) "代表 了 公司 的 劳动 力 和 资本 投入 ,并 且 x. = R&D, 是 
公司 的 研究 和 开发 支出 。 变 系数 模型 意味 着 劳动 力 和 资本 投入 的 系数 可 能 随 
着 公司 的 研发 投入 的 多 少 而 直接 变化 ,所 以 劳动 和 资本 的 边际 生产 率 依赖 于 公 
司 的 研发 水 平 。 另 一 方面 ,部 分 线性 模型 (15. 43 ) 只 允许 研发 变量 对 生产 函数 
有 一 个 中 性 的 效应 , 即 它 只 改变 生产 前 沿 的 水 平 但 是 不 会 影响 劳动 和 /或 资本 
的 边际 生产 率 。 
然而 , 当 某 些 8 系数 事实 上 是 常数 时 ,我 们 应 该 把 它们 作为 常数 来 建 模 , 从 
而 通过 吸收 这 个 信息 得 到 更 有 效 的 估计 。 再 次 考虑 生产 函数 的 例子 。 如 果 把 
资本 进一步 分 成 流动 资本 和 固定 资本 ,我 们 预期 研发 水 平 将 会 影响 固定 资本 的 
边际 生产 率 而 不 是 流动 资本 的 边际 生产 率 是 合理 的 。 这 就 给 出 了 一 个 以 下 形 
式 的 部 分 线性 变 系数 模型 : 
Y =Wy+ZB( X) +u, = 1 (15.46) 
其 中 W, 是 一 个 随机 变量 的 d x1 向 量 ,y 是 一 个 d x1 的 未 知 参数 向 量 ,z 是 rx 
1 维 的 ,X= (X,,…,X, ) 是 g 维 的 ,B(， ) =(B,(* ),…,B,(* ))' 是 一 个 未 知 
变 系数 函数 的 rx1 维 向 量 ,并 且 u, 是 误差 项 ,满足 E(u IW, ,X ,Z ) =0。 
我 们 使 用 序列 方法 估计 式 (15.46)。 对 1=1,…,r, 我 们 用 基础 函数 的 一 个 
线性 组 合 p,'(*)'a,' 逼近 变 系数 函数 B,(z) ,其 中 p(x) = [p(x),…,p (x)]' 是 
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一 个 基础 函数 的 x1 向 量 ,ay = (au ,… ,a ) 是 一 个 未 知 参数 的 k, x1 向 量 。 
468 = X Kx1 # Ë 
p(X E) =š (Z ph (K)',- E p” CR 
Haz (aï, at)’ th K = Y ko 我 们 使 用 一 个 K 函数 的 线性 组 合 


p“ (ZX) aK E Z'B(X,) ,于 是 我 们 把 式 (15. 46) 重 写 为 
Y= W'y +p*(Z,,X,)'a + (ZBX) -p'(Z ,X)'a) +u 
= W'y +p.(Z ,X )'a + error, (15.47) 
其 中 error, 的 定义 是 显而易见 的 。 
我 们 现在 介绍 一 些 和 矩阵 记号 。 令 JJ = (了 Y )', u=(u u)’, W = 
(W ,--,W )', E. 
P = (p'(Z X), ,p'(Z ,X.))' 
于 是 ,模型 (15. 47) 可 以 用 向 量 和 矩阵 表示 法 重 写 为 
y= Wy + P. + error (15.48) 
令 7 和 a 表示 根据 式 (15. 48 ) 对 J 关 于 ()w,P) 进 行 回归 得 到 的 y A o 的 最 
小 二 乘 估计 值 ,我 们 用 8 (x) Ep (x)'& (1=1,…,r) 来 估计 B(x)。 我 们 将 要 
建立 关于 7 的 Vn 正 态 性 结果 并 且 推 导 Bb,(x) 的 收敛 速度 。 
我 们 给 出 一 个 y> 和 CC 的 替代 形式 ,以 便于 下 面 给 出 的 渐 近 分 析 。 式 
(15. 46 ) 可 以 用 矩阵 形式 重 写 为 
Y= Wy+ÇG +u (15.49) 
其 中 CG= (XB(2,),…,X'B(Z.))'。 
EX M=P(P'P) P', 其 中 (，) 表示 (') 的 任 一 对 称 广义 道 。 对 于 nxm 
矩阵 4, 定义 4 =M4。 然 后 ,对 式 (15. 49) 两边 同时 左 乘 M ,得 到 


Y=W +G +ü (15.50) 
用 式 (15. 49 ) 减 去 式 (15. 50) 得 到 
y= Y = (We Ww + (C = Gy £ x = Ë (15.51) 
7 也 可 以 通过 ?7) - 了 对 W - W 的 最 小 二 乘 回归 得 到 , 即 
y = [(Ww- W)'(W- W)] (WwW-w)'(y-y) (15.52) 
469 同时 , & 可 以 由 式 (15.48) 得 到 ,只 需 用 7y 代替 y, 
& = (P'P) - P'(yy- Wy) (15.53) 


由 此 ,我 们 可 得 B,C) = 到 (xz) 1=1, ro 
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在 下 面 给 出 的 假定 下 ,(W - W)'(W - Ww)#l PP 都 是 渐 近 非 奇异 的 。 因 
此 ,由 式 (15.52) 和 式 (15.53) 给 出 的 YA å 都 是 很 好 定义 的 ,并 且 在 数值 上 与 
通过 7 对 (W,P) 回归 得 到 的 最 小 二 乘 估计 值 相等 。 

接 下 来 ,我 们 给 出 一 个 定义 和 一 些 假定 用 于 推导 出 下 面 给 出 的 主要 结果 。 

定义 15.2 g(x,z) 据 称 属于 变 系数 类 函数 9, 如 果 (i) 对 某 些 连续 性 函数 


r 


h(x) 有 g(x,z) =z'h(x)= Y zh (2), }EP h(x) = (h(x),…,h,(x))', 并 且 


Gi) YV Elh, (x,)°] < = , JEP z (2,) (z 0938 142038, 

对 于 任意 函数 f(x,z) , 令 E [f(z,z) KR f( x ,z) ER # Wk R GE 
HBI HE L, WAF) 。 也 就 是 说 , E_,[f(x,z) ] 是 一 个 属于 9 的 元 素 , 并 且 它 
是 在 5 内 所 有 函数 中 最 接近 F(x,z) 的 函数 。 更 具体 地 说 (x 是 x 的 第 1 个 元 
素 ,l1=1,…,r)， 

E| (f(x,z) - E [f(z,z) ]) (/(x,z) - E [f(x,z)]) | 

" LR) - I (es, — FA} 
(15.54) 

定义 86(x,z) =E[WIx,z] , HS m(xz,z) =E,L9(x,z) ]。 接 下 来 的 假定 用 于 
建立 7 的 渐 近 分 布 和 B(z) 的 收敛 速率 。 

假定 15.8 

G) (Y, W,,X Z)" 如 (Y,,W,X,,Z,) 是 独立 同 分 布 的 , 且 (W,X,,Z,) 
的 支撑 集 是 R"** 的 紧 子 集 。 

(ii) 0(z ,z ) 和 var(Ylu ,z ,z ) 都 是 在 (w, ,x, ,z,) 的 支撑 上 的 有 界 函 数 。 

假定 15.9 

G) HFA) = 也 4B,(*) 或 者 f(x,z) =m (x,z) (m, 是 m 的 第 j 个 分 量 
(j=1,…,d) ) ,存在 某 些 6, >0(1=1,…,r), a mas = (wt. tr) ,使 得 

dg 


(ii) min{k, ,--,k } — œ , ° n — œ 时 Wa| Dd —»0。 
在 上 面 的 假定 下 ,我 们 现在 可 以 陈述 我 们 的 主要 定理 。 
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定理 15.6 ENX e =w, -m(X,,Z,), JEP m(X,,Z,) =E (W,) ,并 且 假定 
B=E[e,e' ] 是 正定 的 ,于 是 在 假定 15.8 和 15.9 下 ,我 们 可 得 

(i) Va(y -7y) 一 N(0,3) 依 分 布 收敛 ,其 中 

X = P'ND’, N = E[o'(W ,X ,Z )e,e,] 
Bo(W,X,Z)=E[u |W ,X ,Z ]. 
Gi) 有 的 一 致 估计 由 X= Q ADA JOH 
Ó$ = n” x (W -W)(W -W)', @ =n" 5 üw, -W)(W -W)' 
W 是 W 的 第 i 行 并 且 ú =Y -W'y-p'(X ,Z )'&, 

定理 15.6 的 证 明 在 15.6 节 给 出 。 

在 条 件 同方 差 的 误差 假定 下 ( 即 E[w 1W,X,2Z] =E(w)=o?), 在 
Valy - y) 的 渐 近 方差 的 逆 等 于 半 参 数 有 效 边界 的 意义 上 ,y 的 估计 值 是 半 参 数 
有 效 的 ( 见 Chamberlain(1992))。 

接 下 来 的 定理 给 出 了 对 1=1,…,r, B (x) =p (x)'à" #J 8 (x) 的 收敛 
速率 。 

定理 15.7 在 假定 15.8 和 15.9 下 , 令 S 表示 x, 的 支撑 集 ,然后 我 们 可 以 
得 到 ,对 于 1=1,…,r， 


(i) Mp B(x) - B,(x) | = o, (58) [KZ n + Xk.) |; 
tii) i (Ê, (2) -B,(2))? = o, [x + ya"), 


Gü) (A.G) -p(x)) dF (x) = o, [xn + Da) ,其 中 下 是 x 的 累 


积分 布 函数 。 

定理 15.7 的 证 明和 定理 15.1 的 证 明 是 类 似 的 ,所 以 在 此 省 略 。 

可 以 直接 将 变 系数 模型 的 渐 近 正 态 结果 应 用 于 局 部 线性 变 系 数 模型 以 得 
到 B(z) 的 渐 近 分 布 。 这 是 因为 Y-y= 0,(n 2) , 它 收 敛 到 零 的 速度 比 任何 非 
参数 估计 都 要 快 。 因 此 ,无 论 使 用 7 的 估计 值 或 者 y 的 真 值 ,B(z) 都 具有 同样 
的 渐 近 分 布 ,后 者 成 为 一 个 变 系数 模型 ( 当 y RA), H. Huang 和 Shen(2004) 
以 及 Huang，Wu 和 Zhou(2004 ) 的 结论 是 适用 的 。 也 可 参见 Chen 和 Conley 
(2001 ) 对 于 面板 时 间 序 列 的 半 参 数 空间 模型 的 相关 研究 。 

我 们 已 经 证 明 非 参数 序列 估计 方法 可 用 于 方便 地 引入 形状 约束 ,比如 可 加 
结构 和 变 系数 结构 。 非 参数 序列 方法 也 可 以 用 于 引入 其 他 类 型 的 约束 ,比如 单 
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调 性 ;参见 He 和 Shi(1998 ) 对 非 参 数 估计 单调 B 样 条 的 构建 。 
15.4.1 正确 参数 回归 函数 形式 的 检验 


考虑 以 下 原 假定 ,检验 是 否 正 确 地 设 定 参 数 回 归 函 数 形式 , 即 H°: E(Yl1x) 
=m(%,yY) 对 于 几乎 所 有 x 成立。 令 y 表 示 基 于 参数 原 假定 模型 的 y 的 一 个 
Vn 一 致 估计 量 , 并 且 令 l) RR g(x) =E(Y1x) ) 的 非 参数 序列 估计 值 , 即 
lx) =p" (x)'(P'P) ~P'Y, 其 中 P(x)、P 和 了 与 15.1 节 中 的 定义 一 样 。 定 义 
ü =Y -m(X.,y)3E B ô, =#(X.) -m(X,,y), Hong 和 White(1995) 建 议 基 
于 下 式 检验 H°; 

Í = L 544 (15.55) 
式 (15.55) 背 后 的 逻辑 是 
E[u (g(X) -m(X,,y))] = E[(g(X) - m(X,y))°] > 0 

当 且 仅 当 H 为 真 时 等 号 成 立 。 

假定 15.10 |X ,了 了 |” ,是 独立 同 分 布 过 程 ,有 E(Y)<%m。X ESER 
有 一 个 连续 的 正 的 概率 密度 函数 f, 此 处 S 是 X 的 紧 支 撑 集 。 误 差 是 条 件 同方 
差 的 。 

Hong 和 White(1995 ) 证 明了 下 列 结论 。 

定理 15.8 在 假定 15.2 和 15.10 下 ,如 果 是 真 的 ,那么 


J = {ao - K)/(2K)'2 -, N(0,1) (15.56) 


Hp al. =n Y ú, ú, = Y -m(x,,y). 
ial 


Hong 和 White( 1995 ) 也 讨论 了 怎样 扩展 他 们 的 检验 以 处 理 条 件 异 方差 误 
差 的 情形 。 

Hong 和 White( 1995 ) 对 m 提出 了 另 一 种 基于 序列 的 检验 统计 量 , 它 基于 
一 个 参数 回归 模型 和 非 参 数 回 归 模 型 之 间 残 差 平 方 和 的 差 , 即 


= 和 (15. 57) 

其 中 q, = Y, -&(x ) 是 非 参数 估计 量 的 残 差 ,和 定理 15. 8 一 样 ，Hong 和 White 
(1995) 证 明 在 H° F , 

J: = (n77]02 - K)/(2K)'2 Š, N(0,1) (15.58) 

如 果 H° 是 非 真 的 , P m 三 都 会 依 概 率 收敛 于 某 个 正常 数 ;因此 , 疡 和 了 
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将 会 以 速率 /nA/VK 发 散 至 + % , 即 它们 是 一 致 检验 。 
在 第 12 章 中 我 们 构造 了 基于 Elu E(u 1X,)] 的 核 检 验 。 我 们 也 可 以 用 这 
种 方法 构造 基于 序列 的 检验 。 我 们 通过 i(x) =p* (x)'[P'P] Pi 估计 r(x) 
三 E(ulx) ,并 且 我 们 用 下 式 定义 r( X ) 的 去 一 估计 值 : 
p (X) = p'(KX)'[P'P]”' >p'(x )ú (15.59) 
我 们 可 以 基于 下 式 给 出 的 尼 [uE(u 1IX)] 的 样本 对 应 值 构 造 一 个 检验 统 
计量 
Ta TE ú; (X) = TRR ir (X)'(P'P)'p'(X)ë 
Sun 和 Li( 2006) EHZ H? 假定 下 
了。 = nT. /[(2KR)'?ë` ] SN(0,1) (15. 60) 
对 式 (15.60) 的 证 明 留 作 习 题 (见习 是 15.6). 
事实 上 ,我 们 可 以 通过 下 式 计算 : 
ip (K)'[P'P] “p(X )ů, 


~- k Y üp'(X)'[P'P] 'p'(X) 
fE H° F, Hong 和 White(1995) 要 求 
E|[0 (X) -p'(X)'8,]']| = oÚ(K'“*n!2) 
然而 这 个 条 件 对 7" 统 计量 (在 H° 下 ) 来 说 是 没有 要 求 的 。 同 时 , /没有 一 
非 零 的 中 心 值 。 因 此 , 它 可 能 比 拥 有 非 零 中 心 项 的 检验 表现 出 更 好 的 有 限 样本 
性 质 。Sun 和 Li(2006 ) 报告 的 模拟 结果 确实 证 明 在 有 限 样本 中 J ,检验 比 J 
和 J 检验 表现 得 好 。 这 些 检 验 都 可 以 扩展 以 处 理 条件 异 方差 误差 。 为 了 简 


洁 ， 我 们 只 给 出 7 检验 的 结果 。 
定理 15. 9 在 假定 15. 2 和 15. 10 下 ,但 是 允许 条 件 异 方 差 误差 , 即 
E(w 1X)=o (X), JEP o’ (x) 是 x 的 平滑 (但 是 未 设 定 ) 函 数 ,那么 
Gi) 在 把 下 ,卫生 nT /S$, ,oN(0,1) ,其 中 
S, -2> > p“ (X,)' (P'P) p(X) Pia 
(ii) Æ H? F, 对 任意 C =o(nK'2?),P(J' >C )—1, 
定理 15.9 的 证 明 在 15.6 节 给 出 。 
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z z z - š A ta] 


n 


注意 当 误差 是 条 件 同方 差 时 ,我 们 可 以 用 oz(z) = n” Y 0 REE S2 ,内 


H i, A i, IEE Si, 简化 为 20 K。 

Eubank 和 Hart (1992 ) 提 出 了 另 一 个 关于 正确 参数 回归 函数 形式 的 基于 序 
列 的 检验 。 他 们 将 参数 原 模 型 (如 线性 模型 ) 嵌 套 进 一 个 更 一 般 的 非 参 数 序列 
回归 模型 ,然后 在 模型 的 非 参 数 部 分 进行 序列 系数 的 显著 性 检验 。 他 们 的 方法 
的 优点 在 于 当 原 假定 被 拒绝 时 ,估计 的 序列 系数 对 于 非 线性 项 应 该 加 入 模型 提 
供 了 指示 。 

15.4.2 关于 可 加 部 分 线性 模型 的 一 致 性 检验 


给 定 相对 容易 实施 的 非 参 数 序列 估计 量 服从 的 约束 ,比如 服从 可 加 性 或 者 
单调 性 约束 ,我 们 现在 考虑 构造 基于 序列 方法 的 检验 统计 量 。 特 别 是 ,通过 可 
加 部 分 线性 模型 ,我们 关注 检验 模型 的 充分 性 这 个 问题 。 

我 们 在 这 一 节 讨 论 的 检验 统计 量具 有 许多 理想 的 性 质 ,包括 (i) 它 避免 了 
非 参数 地 估计 对 立 模型 从 而 部 分 地 避免 了 维 数 诅 咒 , (ii) 它 可 以 检测 到 
0 (n “) 阶 的 局 部 选择 ,并且 ( 这 ) 它 在 计算 上 是 简单 的 。 

我 们 考虑 以 下 可 加 部 分 线性 原 模型 的 一 致 性 检验 : 


H: E(Y IX) = z(X,)'y + Y m,(X,) a.s. 
l=1 


某 些 ye B, > m,(:) € G (15.61) 


其 中 8 是 RR“ 的 一 个 紧 子 集 且 9 表 示 可 加 函数 类 。 
备 择 假定 H 是 H° 的 否定 , 即 


Hi: E(Y | X) # z (X )'y + > m(X,) (15.62) 





对 任何 y e B 以 及 任何 》m,(*') e 9, 以 正 测度 在 一 个 集合 上 。 


原 假定 H. 几乎 确定 等 价 于 E(u 1X ) =0, 其 中 必 由 上 文 定义 。 注 意 对 所 
AM -)e M, HF o(X,) WERAK , HA Elu, AA(X )] =0 时 ,几乎 确 
€H E( u lX) =0。 依照 Bierens 和 Ploberger ( 1997), Stinchcombe 和 White 
(1998) 以 及 Stute( 1997) ,我 们 考虑 具有 以 下 形式 的 非 条 件 矩 检验 ,而 不 是 式 
(15.61) 的 条 件 和 矩 检 验 : 

E[u, KH(X,x)] = 0, 几 乎 所 有 x eSCR"' (15. 63) 
其 中 X(，,， ) 是 一 个 加 权 函 数 的 合适 选择 ,该 选择 使 得 式 (15. 63 ) 和 式 (15. 61 ) 
Eto AFH 的 具体 条 件 见 下 面 的 假定 15. 11(i) 和 (ii) 。 
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K = s a S x 5 Ry RA 


我 们 假定 加 权 函 数 HN( : , ` )fESx SE E # HJ Stinchcombe 和 White 
(1998 ) 证 明 存 在 一 类 广泛 的 加 权 函 数 H(， , ` ) 使 得 式 (15. 63) 几乎 处 处 等 价 
于 E(w 1X) =0。 加 权 函 数 的 选择 包括 指数 函数 H(X x) =exp(X' x), logistic 
函数 HL(X ,x) =1/[1 +exp( c - X x) ] ,其 中 e 关 0, 以 及 Tt(X ,x) = cos( X x) + 
sin( X'x) ;参见 Stinchcombe 和 White( 1998), Bierens 和 Ploberger( 1997 ) 对 于 此 
问题 更 进一步 的 讨论 。 

将 E[u HCX, sx) ] 的 样本 对 应 值 乘 以 Yn, 得 到 

(x) = [T yu AA] = E n HX) (15. 64) 

T 可 以 看 作 在 所 有 实 分 离 空间 C, ( S,”) 里 取 值 的 一 个 随机 元 素 ,在 S 上 的 Borel 
可 测 函 数 /满足 | 7(x) >(dz) < om , CHRT L, 范 数 上 fl = [£ya 在 
20 世纪 60 年 代 和 70 年 代 发 展 起 来 的 Hilbert 空间 概率 论 , 极 大 地 简化 了 研究 类 似 于 
|Z |, 的 统计 量 的 渐 近 分 布 问题 ,因为 在 C( 5S,v) 中 取 值 的 随机 元 素 的 中 心 
极限 定理 的 充分 条 件 可 以 得 到 并 且 很 容易 检测 。 比 如 说 ,对 于 一 个 独立 同 分 布 


C,(S,z) 值 元 素 的 数列 {Z(+ )| .，Araujo 和 Giné( 1980 ,p. 205), van der Vaart 
和 Wellner( 1996 , p. 50) ,以 及 Chen 和 White(1998) 认为 E L, F (L, ( S, 


v), la) HERS ELZ, (x)?]v(dx) < o 时 ,2 S ZCO) KAF 
S i=l 


Z( - ) .9 其 中 2 是 一 个 与 Z, 具有 相同 协 方差 函数 的 高 斯 元 素 。 我 们 将 在 下 面 
的 一 个 引 理 正式 概括 这 个 结论 。 

我 们 假定 v(S) < w 。 因 为 我 们 将 会 只 讨论 5 是 R“ 内 的 一 个 有 界 子 集 的 情 
况 ,我 们 选择 v(， ) 作 为 在 5 内 的 Lebesgue WE, IWAS- ) 是 一 个 在 L,(5， 
v) 内 的 Hilbert 值 随 机 元 素 。 我 们 在 下 面 的 引 理 中 提出 了 一 个 Hilbert 值 中 心 极 
限定 理 。 

引 理 15.1 Z (:),,Z (+ ) 为 Hilbert 值 ,独立 同 分 布 ,是 L,(S,v) 
上 的 零 均值 随机 元 素 ,满足 E[ |Z(…)|*] < %。 然 后 ,我 们 可 以 证 明 
n S Z (:) 弱 收 敛 ?于 零 均 值 高 斯 过 程 ,其 协 方差 ( 核 ) 函数 为 

(IO = E[Z (x)2Z. (x)'] 
证 明 : 见 Politis 和 Romano( 1994 ) 的 定理 2. 1 ,或 者 van der Vaart 和 Wellner 


”如果 对 所 有 的 实 值 有 界 连续 函数 h, 有 E[h(2Z)] 一 E[h(Z)] ,那么 一 个 H 值 随机 元 素 Z 序列 
弱 收敛 于 了。 
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(1996 ,习题 1. 8. 5,p. 50) 。 注 意 E[| Z (<) |2] < % 是 一 个 使 得 过 程 
nS ZO) 为 紧 的 充分 条 件 。 o 
使 用 引 理 15. 1 KRESO ) 是 紧 的 是 很 直接 的 。 令 
人 = u. H(X: °.) 
可 得 
ELI ZC) 13] = E{ fu? CHOX,,#) (dz) | 
= Efa’(X,) f [H(X,,x) ]’v(de) } 
< E[o CE)1{cf sdz)j< < 
其 中 a (X,) =E(U}IX,)o 
于 是 ,根据 引 理 15.1, 我 们 知道 六 (， EL, (Ssv, I e ARRAES CO )。 
其 中 J ( ' ) 是 一 个 高 斯 过 程 ,以 零 为 中 心 且 协 方差 函数 2 为 
(x,x') = E[Z (x)Z (x')] = E[o?(X,) H(X, ,x) H(X,,x’)] 
(15.65) 
其 中 x 和 x' es, 
因为 u 是 不 可 观测 的 ,我 们 必须 用 ú 代替 ,其 定义 由 下 面 的 式 (15. 67) 
给 出 ,由 此 我 们 可 以 得 出 一 个 关于 式 (15. 64) 的 可 行 版 本 为 


J (z) = = ú M(X ,x) (15.66) 
我 们 使 用 一 个 天 函数 的 线性 组 合 去 通 近 m (x) (1=1,--,L): 477 


pA) = (pa (a) apa ED) 
也 就 是 说 ,我 们 使 用 K = YK, 函数 的 线性 组 合 (p (zx ) ep (x,)') = 


p“ (x)' 去 通 近 一 个 可 加 函数 > m (z) 


我 们 使 用 上 | 表示 一 般 的 欧 几 里 得 范 数 ( | ` |, 7R L, 范 数 )。 我 们 
假定 : 

假定 15. 11 

(i) 加 权 函 数 Mt(X x) =w(X x), w,- ) 是 一 个 解析 的 非 多 项 式 函 数 。? 

Cii) KH(*,* ) 在 SxS5 上 是 有 界 的 并 且 满 足 Lipschitz 条 件 , 即 对 于 所 有 的 


D 解析 函数 是 指 在 它 域内 的 每 一 个 点 局 部 等 于 它 的 Talor 展开 式 ,比如 exp ( + ) 、logistic、 双 曲 切 
线 、 正 弦 和 余弦 函数 等 。 
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条 & 全 k a # 88 N $ 


x x, €S, IH(X,,x) -M(X.,x,) |< G(X.) |x -x, ||, Æ E[G (X.)] <= , 
(iii) v( - ) E Lebesgue 测度 。 
S p, 和 PP 为 式 (15.20) 所 定义 的 且 令 Z, 为 nxr 和 矩阵 ,其 第 i 行 由 z,(X,)" 
给 出 。 然 后 用 向 量 一 矩阵 表示 法 把 式 (15. 61 ) 写 为 
Y=Zy+m+U=Zy+Pß+(m-Pß)+U = Xa + (m - PB) + U 
J'h2=(Z P), a=(y',B')';Y 和 都 是 nx1 向 量 ,其 第 i 个 分 量 由 YY 和 


分 别 给 出 ;并 且 m 是 nx1 向 量 ,其 第 ;个 分 量 为 m = 六 m,(X,)。P 是 nxK 


| 


HEW, B B=B, 是 Kx1 向 量 ,满足 假定 15.2(iii)(f=m)。 
我 们 用 最 小 二 乘法 通过 J 对 4 回归 来 估计 a = (Yy',B')', 得 到 


& = Hb (XX) XY 


其 中 (XX'X) 是 (XX'Xt) 的 广义 道 。Li(2000) 证 明 y-y=0 (n), 同样 ,由 
Andrews 和 Whang( 1990) 以 及 Newey( 1995 ,1997 ) 的 结果 可 知 


L 
(uY = mis) = 0, ( (K/n)'? š > KA] 


其 中 页 (x) =p“ (x) ' 8, FÆ, RI FRI u: 
ü = Y, -za(X)'y -p(X)'B (15.67) 
我 们 对 于 H 的 检验 统计 量 是 基于 
> l 
j (x) = 一 》 H(X ,z)ú 
n a i i 


其 中 立 由 式 (15. 67) 给 出 。 由 了 (x) 我 们 可 以 构建 一 个 Cramer-von Mises( CM) 
类 型 的 统计 量 来 检验 HO: 

CM = [EI] F (de) = 二 了 [J (x) ]° 
JEP F (o EX X 的 经 验 分 布 函数 。 

接 下 来 的 定理 建立 了 在 Hi 假定 下 的 (x) CM, 的 弱 收 敛 性 。 

Æ 15.10 ”如 果 假 定 15.6.15.7 和 15.11 成 立 。 那么 ,在 有 下 ， 

(i) jJ (+ ) 在 LC,(S,v, "中,) 上 弱 收 敛 于 J.(， ) ,J 是 一 个 高 斯 过 程 ， 
具有 零 均值 上 且 协 方差 函数 由 了 (x,x') =E[o'(X )n(x)m,(x')] 给 出 ,其 中 
n(x) =H(X ,x) -p(x) -wy (z), H 

$,(x) = E [NH(X,,x)] 
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ko) ki $t 4 局 x= 3 = 25 


p(x) = ELH(X ,x)e ] |El ee, ] te, 
g, = z (X,) - E (z (X,) ) 
Gi) CM, 依 分 布 收敛 于 [[J- (z)] F(dx) ,其 中 FO) 是 X 的 累积 分 布 
函数 。 


定理 15. 10(i) 的 证 明 在 15.6 节 给 出 。 
正如 Bierens 和 Ploberger( 1997 ) 以 及 Chen 和 Fan(1999 ) 所 倡导 的 ,人 们 可 


以 证 明 |[7- (z) ]*F(dx) 可 以 写成 加 权 的 (独立 )X; 随机 变量 的 无 限 总 和 ,其 权 
数 由 (X,Y ) 的 未 知 分 布 决定 。 因 此 ,得 到 临界 值 是 困难 的 。 我 们 建议 对 于 
CM, 的 零 极限 分 布 使 用 一 个 基于 残 差 的 原始 自 举 法 去 逼近 临界 值 , 即 ú" = 
[(1 -/5)/2]ú ,概率 为 (1+V5)X[2V5]iu = [(1 +/5)/2]ú ,概率 为 (V5 -1)/ 
[2V5]。 注 意 < ”满足 
E" (as) =0, E(w ) =ë, E(u”) = @ 
HPE) =E( C 1W)EAW, =1Y X} o Miu 1" ,我们 可 以 通过 以 下 
原 模型 生成 Y”: 
Y' =z (X)y+p'(X) 6 +u, i=l, e,n 
然后 ,使 用 自 举 样本 | (Y”,X,)1", ,可 得 
.= (XR XY 
B 
Hpx=(Z ,P)fly J nx 1 JBL, E GR Y. B 33822 H ú = 
Y’ -z (X)'y`-p'(X)'6 AH, AARSE j" (x) 是 通过 把 也 (x) 中 的 
i 以 羡 ” 替代 得 到 , 即 
Î (2) = =š â’ M(X ,z) 
使 用 "(x) ,我 们 可 以 计算 CM 统计 量 的 自 举 形式 , 即 
CM. = EU OT 
Li, Hsiao 和 Zinn(2003) 证 明了 CM ` 与 CM 的 零 极限 分 布 同样 收敛 于 相 


同 的 极限 分 布 。Li，Hsiao 和 Zinn 的 模拟 结果 表明 自 举 统计 量 CM ` 在 有 限 样 
本 应 用 当中 表现 良好 。 
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15.5 其 他 基于 序列 的 检验 


Li, Hsiao 和 Zinn ( 2003 ) 也 考虑 了 用 基于 序列 的 方法 去 检验 一 个 不 具有 参 
数 部 分 线性 成 分 的 可 加 回归 模型 的 原 假定 ,这 可 以 看 成 是 一 个 特殊 情形 , 即 检 
验 一 个 y =0 的 可 加 部 分 线性 模型 。Li,Hsiao 和 Zinn 进一步 考虑 了 检验 一 个 部 
分 线性 模型 的 原 假定 ,这 也 可 以 看 成 是 一 个 特例 , 即 检验 一 个 可 加 局 部 线性 模 
型 ,但 有 一 个 (上 =1) 非 参数 函数 (而 非 适 用 于 了 >1 个 非 参 数 可 加 函数 ) 。 理 论 
上 ,可 以 对 所 有 类 型 的 假定 构造 基于 序列 的 检验 ,包括 非 参 数 遗 漏 变量 检验 和 
对 两 个 未 知 密度 的 相等 性 检验 。 

Donald ,Imbens 和 Newey( 2003 ) 提出 了 一 个 新 的 方法 去 构建 一 个 基于 一 个 
经 验 似 然 函 数 的 序列 估计 的 一 致 条 件 矩 检验 。 他 们 的 检验 统计 量 基于 出 现在 
条 件 矩 约束 中 的 有 限 维 参数 的 有 效 估 计 。 其 方法 允许 内 生 回 归 元 并 且 也 允许 
大 量 的 矩 条 件 。 


15.6 证 H 


依据 Newey ( 1997 ) 给 出 的 论证 ,我 们 假定 在 假定 15.2 dh B = I. Hk 
p*(，) =P“( - ), 因 为 所 有 的 非 参 数 序 列 估计 量 对 于 p O ) 的 非 奇异 变换 来 
说 都 是 不 变 的 。 同 样 我 们 假定 Q ZE[p'(X)p'(X)'] =1。 这 是 因为 对 于 Q ' 
的 对 称 平方 根 0-“,0-'?p*(… ) 是 p*(… ) 的 一 个 非 奇 异 变换 ,并 且 , 由 假定 
15.2( 汪 ) 可 以 很 容易 证 明 6,(K) Z sup | Qp" > ) | <CY。(K)。 进 一 步 ,如 果 
RAIE pC RPC ) =p O ) 并 且 定义 B= QB DZ BE 15.2 
(者) 满足 ,因为 lg(，)-p"(…)'Bl1=1f/(:) -Bp*(:)'B1。 于 是 , 当 p*(… ) 换 
RO PC ) 时 ,所 有 的 假定 成 立 。 
15.6.1 定理 15.1 的 证 明 

我 们 在 这 里 只 证 明定 理 15. 1(i) 。 和 定理 15.1(ii) 和 (iii) 可 以 用 同样 的 方法 
证 明 。 

(i) 的 证 明 : 利 用 三 角 不 等 式 ( 14+B1<l41+181), 令 1 表示 大 于 
1⁄2 的 Q 的 最 小 特征 值 的 示 性 函数 ,由 引 理 15.3( 见 下 文 ) 和 假定 15.2, 

1, |[[&(z) -~ g(x)] dF(x) 
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a a = hd a š 8 ic] E 


= 1, Lp" (=)'(Ê - B) +p" (*)'B - g(x) dF (x) 
< 21, fp (=)'(É - B) | dF(z) +21, JUP" (2) 8 - z(a) ] dF(z) 


= 21 I8 - BI ° +21, fir" (x)'B-g(x)] dF(x) 


< 0 (K/n + Ky + 0 (K™) = 0 (K/n + | 
在 上 面 的 第 二 个 等 式 中 ,我 们 使 用 


fip" (x)'(B-B)] dF(x) = (É - B)’ |") p" (x)'dF(x)(B - B) 


= |ñ - B l! 


因为 [p*(x)p" (x)'dF(x) = E[p'(X)p'(X)] = Lo 口 


现在 我 们 证 明 在 定理 15. 1 的 证 明 中 使 用 到 的 引 理 。 
引 理 15.2 E[| Q -I|2?]=0(¿ (K)'K/n)(Q =l). 
证 明 : 回 忆 一 下 ,对 于 任意 的 矩阵 4, | A ||” 是 由 1 41 =tr(A'A) E X. 


对 于 一 个 KxK BEF, 4 表示 出 现在 A 中 第 j 行 和 第 i1 列 的 元 素 ,我 们 有 


K K 
tr( A'A) = A? 
r 而 > š 


令 5, 表 示 (1,), ,注意 假定 0 = 7 意味 着 


可 得 


Elp, (X, )p. (X.) ] Ë: Š, 


I (P'P/n) - [|| °] 


E[ 
= > > El{n" Y pa (Op (X) -6,}] 


j=1 lai 


(|A|? = tr(A'A) = > > 4) 


E[| Q - 12] = 


= 22 n 'Ettp (X.)p (X) -8,1 


j=sli=1 


CHH E[p (X )p (X.)] = 8.) 
< YY E [ps (X) °p, (X) In 
A =p. (X )p; (X.) BF, var(A) < E(A’)) 


K 
= E[l p" (X,) |° px (X) ]/n 
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E kd g = (a = = S 


< ¿ (K)°E|[ 5 pp CA 
(由 假定 15. 2) 
= ¿ (K)’E| tr[p"(X,)p" (X,)']}/n 
= g, (K)°tr(1,)/n = ¿, (K)°K/n 
注意 引 理 15. 2 意味 着 1 Ô -II =0,(t。(K) VK/n) =o (1), F, A» 
0 -7 的 最 小 特征 值 是 受 | Ô — 1 约束 的 ,这 意味 着 0 的 最 小 特征 值 依 概率 收 


敛 于 1, 即 P(1 =1) 一 1。 . 
引 理 15.3 1.18-B1 =0,(K'°/n'? +K), 
483 HEB: u=(u u u ) ,可 得 


E[1 || Q ''2P'u/n ||? 1 X] = 1 E[u'PQ ''P'u l! X]/n° 
= 1 E[u'P (P'P) 'P'ul X]/n 
= 1 EF[tr|u P (PP) P'e} | X]/n 
= 1tr|P(P'P)'P'E[uu'I X]}/n 
< Cl tr|P (P'P) 'P'| /n 
= 1 CK/n 
因此 ,由 Markov 不 等 式 ， 
1 | Q 'P'u/n|| = 1 | (u'P/n) Q00 2 (P'u/n)|!? 
< 0 (1)1, | Q '2p'u/n || 
= 0 ((K/n)'”) (15.68) 
令 6= 有 ,为 假定 15.2 中 给 出 的 ,并 且 令 G 为 一 个 mx1l 和 矩阵 ,其 第 ;行为 
E(X.) 。 那 么 ,注意 1.P (P'P) PESE, 
1, IQ 'P'(G - Pp)/n | 
= 1,[(G - P8)'PQ0 0 0 P'(G - Pp)/n°]'? 
< 0 (1)1,[(Ç - PB)'PQ”'2Q7'2P'(G - PB)/n° ]'? 
= 0 (I)1,[(G - PB)'P(P'P) 'P'(G - PB)/n]'” 
< 0 (1)1,[ (G - P8)'(G - Pp)/n]'” 
= 0 (K”") (15.69) 


其 中 ,在 上 面 的 最 后 一 个 不 等 式 中 ,我 们 使 用 了 如 果 4 hh — 4° % $E EH BE, 则 
z'4z<z'z, 且 最 后 一 个 等 式 来 自 假 定 15. 2。 
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因此 ,通过 使 用 三 角 不 等 式 , 可 得 
11,.(B8-B) I| = l1.0 'P'yyn - 1.0 'P'PB/n | 
= |1,Q''P'(y - G)/n +1,Q 'P'(G - Pp)/n | 
<1 |Q''P'u/n| +1 || Q 'P'(G - Pp)/n | 
= 0 ((K/n)'? + K `°) 
其 中 最 后 的 等 式 根据 式 (15. 68) MRCS. 69) 推 出 。 口 


15.6.2 定理 15.3 的 证 明 


回忆 6(X ) =E(Z.1X,) ,v=2Z, 一 9(X) ,我 们 将 使 用 下 面 的 缩写 记号 :0 = 
0(X), 8g,=g(X.) 和 wv =2,-0.。 

为 了 避免 在 向 量 一 矩阵 变量 中 引入 过 多 的 记号 ,我 们 将 使 用 没有 下 标的 同 
样 的 记号 来 表示 一 个 向 量 或 者 一 个 和 矩阵。 例如 ,9 是 n xr 和 矩阵 ,其 第 i 行为 
9 (Z )'。 这 种 惯例 适用 于 5 .osu 等。 


回忆 我 们 定义 4 为 4 =P (P'P)-P'4。 这 个 定义 适用 于 任意 一 个 下 面 考虑 
到 的 nx1 或 者 n xr 矩阵。 例如 ,6 =P (P'P) P'o, TH. ú #l š 被 同样 地 定义 。 
H X =0 +v, 我 们 得 到 Z = 6, + 5。 或 者 说 ,在 向 量 一 矩阵 表示 法 中 ， 
Z=9+v ,Z =6 +5。 于 是 ,我 们 可 得 
Z-Z =(0-0)+e- b (15.70) 
对 于 标量 或 者 列 向 量 4 ABES p =n YAB, o MRIS S = 


S° 


注意 如 果 S ' 存在 ,那么 我 们 得 到 

Vn(y =y) = S;' z Saza 
我 们 将 通过 证 明 下 列 式 子 来 证 明定 理 15.3. 
Ci) S, z = 更 +o(1) (因此 3S，z 是 渐 近 非 奇 异 的 ) ; 
Cii) S,.y -z =0,(n 7); 


(ii) S, z z =o (n '); 


(iv) VnS， z 一 N(0,02) 依 分 布 收 敛 。 


-~ 


-g +u- Ñ 


这 些 在 下 文 将 被 证 明 。 
(i 的 证 明 :S，; =@ +o (1)。 由 式 (15.7) ,可 得 
S,_z = S etè- F jos w s ki S, sy-% t25 -Ts 
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首先 , 根据 大 数 定律 的 性 质 ,S, =n X vo, = +o (1). 


其 次 ,由 引 理 15.7 以 及 引 理 15.8(i) 可 得 
S ; <2[8,, z) *S;] = o (1) 


(0-0 )- ? (0-0 ) 
最 后 ,由 以 上 结果 可 知 
So- z-z E IS, Sogl = 10,(1)0 (1)]'? =0(1) 口 
485 Cii) HEH S, z ，; =O (K'') =0, (n7?) o HARAS. 70), 
Sor F Sewise F Sneg TO T Snar 
并 且 我 们 分 别 考虑 等 式 右 边 的 三 项 。 
(i) E[| S, z l IX] =n u[(g-g)(g-8g)'E(w'1X)] 
<Cn tr[(g-g)(g-g)'] 
=Cn tr(S ;) 
=n '0 (K >) =o (n ) 
因此 , S,，; =o (n l"), 


(ü) 由 引 理 15.7,S， g SIS, 755-1 =0 (K), 
(iii) 由 引 理 15.7 和 引 理 15.8(i) ,S- z SISS, >} =o (1)O0 (K °). 
口 
Cii) 的 证 明 :S，zr ¿ =o (n ”)。 利 用 式 (15.70) ， 
S, y; = S-ar F 330 “S; 
我 们 分 别 考虑 这 三 项 。 


(i) 由 引 理 15.8(i) ， 
ELIIS, ,|| 1X,Z]=m trP(P'P) Poo'P(PP) P'E(uu'\ X,Z)] 


< Cn 'ttr[P (P'P)" P'w'P (P'P)` P'] 
= Cn tr[v7’] = Cn ''tr(S.) = O(K/n°) 
因此 , S, ; =0,(VK/n)。 
Gii) 由 引 理 15.7 和 引 理 15. 8(ii),5, z z SiS, zSz} = 0 (K °) 


0, (VR/Vn). 
Gii) 由 引 理 15. 8(i) 和 (ii),S; z SIS; S; |? =0,(K/n)。 口 
(iv) 的 证 明 :VnS，; ;一 N(0,0) 依 分 布 收敛 。 
a N a ç Sy. 
我 们 分 别 考虑 这 三 项 。 
(i) 由 Lindeberg-Levy 中 心 极限 定理 , /nS,, =n? Y nu — N(0,0) 依 分 
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布 收敛 。 
(ii) 由 引 理 15. 7， 
E[ IS z 21 X] = n u[(0 - 0) (0 - 0)'E(uu'l X)] 


< Cn?u[(0 - 0) (0 - 0)'/n] 
= Cn tr(S， ; ) = o (n`) 
因此 ， Si ,=O0O(n  )。 


用 与 上 面 的 (ii) 完 全 一 样 的 论证 ,可 得 


(iii) 由 引 理 15. 8(i),E[|| S$, ,| 1Z]<Cn tr(S- ) =o (n ” )。 因 此 ， | 


„u 


Sz, =0, (0), BL E(i)—(iv) ERÉ 
Jn(y-y)=@ 'N(0,0) +o (1)—N(0,@ AD) K4 ik N 
=Y+o(1) 的 证 明 : E= p AD, b=S ;=8 +o (1) ELE WEB, 
下 面 我 们 提供 一 个 证 明 O = 0 +o,(1) 的 概要 ,因为 详细 的 证 明 与 $ = $ + 
o, (1) 的 证 明 是 非常 相似 的 。 

使 用 了 -y = 0 (n ''2)88( X) -z(X) =o (1), 9A =u +o (1)s F 
样 ,由 引 理 15.7 以 及 引 理 15. 8 (ii) ,可 知 0 - 6 =0,(1), 5, =o (1), 
m =o,(1) 。 于 是 ,由 式 (15.70) 可 知 ,Z, -Z =v, +(0 -0,) -s =v, +o (1), 
这 些 结果 推出 让 =n Y iZ,- 2) (Z -2)' =n” 5 uvo! +o (1) = 


N + o,(1)( 根 据 大 数 定律 的 性 质 ) 。 口 

我 们 使 用 1 表示 一 个 示 性 函数 , 当 (P'P) 可逆 时 这 个 函数 取 值 为 1, 反 之 为 
0。 我 们 将 只 在 引 理 15.5 的 证 明 中 明确 地 使 用 示 性 函数 1 ,而 在 引 理 15.6 至 
引 理 15. 8( 首 ) 的 证 明 中 省 略 它 以 简化 记号 。 不 论 我 们 何 时 使 用 (P'P)”“, 它 应 
该 被 理解 为 1 (PP) ,并且 因 为 P(1 =1) 一 1 依 概率 收敛 ,所 以 我 们 将 经 党 
省 略 示 性 函数 1 。 

引 理 15.4 Q -I=0 (¿¿(K)VK//n) ,其 中 Q=(P'P/n)。 

证 明 : 参 见 Newey( 1997 ,pp. 161 一 162) 关 于 定理 1 的 证 明 。 D 


引 理 15.5 || 8. -B | =0,(K“), 其 中 ,=(P'P)-P'f,B 满足 假定 ， 


15.2,f=g 或 /=0。 
证 明 : 由 引 理 15. 2 假定 15.2 UR P (P'P) "'P' 是 等 舌 的 事实 ， 
18 -B l = 1, (P'P) P'(/- Pp) l 
= 1 (Ff- Pp)'P (PP)™ (P'P/n) P'U - PB))/n|"” 
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G s x E m= Fa 5 d wy 


=1,0,(1) i (f - PB,)'P (P'P)` P'(f - PB,)/n}'” 
< 0 (1) | (f - PB,)'(f - PB,)/n}'? = 0 (K=) 


最 后 , 8, -B8 | =0,(K“), 因 为 P(1,=1) 一 1 。 o 
513 15. 6 


(P'n/n) = 0,(¢,(K)/Vn) =o (1) 
Jeri m =u sË m = ç, 
WEH: EE ELP n] =0, 可 得 


E || P'n/n || ? = n? í > > E[P,P,nm,]] 
š " {FELPP,n:] + 2, 2, ELP, 1ELP,n,)]} 
= n? > ELP, Pm] 
< Cn'E[P;P,] = 0 ((¿,(K))°/n) 


因此 ,(P'n/n) = 0 (¿,(K)/ /n). 
引 理 15.7 S ;=0 (K *) =o (n`?) P f=z 2 f=0. 


证 明 : 注 意 / =P 8 ,由 假定 15.2 和 引 理 15.2 以 及 引 理 15. 5 ,可 得 
Sz = n" |f-f1*<2n" If- PEI? + IPC, - B) 1?) 


O(K™) + (B, -B)'(P'P/n) (B, - B) 
= O(K™) +0 (1) IB, - B, I? = 0,(K™) 
5| 15. 8 
(i) S; =0 (K/n) 
(ü) S; =O (K/n) 
488 (i) 的 证 明 :与 引 理 15.2 的 证 明 一 样 , 可 知 
E[S. 1 Z] = n'E{v'P (P'P) 'P'e! Z| 
= n'tr[P (P'P) !P'E(s "ol Z)] 
< Cn''u[P (P'P) P'] = 0 (K/n) 
这 意味 着 5; = 0,(K/n)。 
(ii) 的 证 明 :与 引 理 15. 8(i) 的 证 明 相 似 。 口 


15.6.3 定理 15.6 的 证 明 
回忆 0(X.,Z ) =E[W,1X,,Z,], m(X,,Z,) =E (W,) =E (0(X ,Z)) ,并 
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He =W -m(Z.,X),. EX 6 =W, -0 (X.Z) n, =0(Z,,X,)-m(X,,Z,)o 
我 们 使 用 下 面 的 缩写 记号 :90, =0(X.,Z),=z =Z B(X),m =m(X,,Z)s T, 
v =W, -0,, e, =0 +v —-m., n =b-m。 最 后 ,没有 下 标的 变量 表示 和 矩阵 , 例 
如 ,bg=(6,,…,6.)' 是 mxl 维 的 。 

同样 回忆 对 于 任意 的 有 行 的 矩阵 4, 我 们 定义 4 = P (P'P) P'A(P 是 由 
下 面 的 式 (15.47) 定 义 的 ) 。 把 这 个 定义 应 用 到 9、m、g、n u w, RIE 9 m. 
ER O E 

因为 W =0 +u,0 =m +n, RIIE W =n, +o +m MW = 9, + + 
页 。 用 矩阵 表示 ,)W = 了 +z+mm,yW = 万 +i+ 页 。 因 此 ,可 得 

W- W = n +s + (m —- ñm) - š - ñ (15.71) 

对 于 标量 和 列 向 量 4, 和 B, ,我 们 定义 5S, =n … > AB 和 5, =S, RI 

还 定义 一 个 标量 函数 5, =n Y AA, 是 S. 的 对 角 线 元 素 的 和 。 利 用 ab < 


(a? + 好 )/2, 易 知 S ,的 每 一 个 元 素 是 小 于 或 者 等 于 5,+5, 的 。 当 我 们 评估 
S ,的 概率 阶 数 时 ,我 们 通常 记 作 S <S. +S, RERS, +S, 约束 5, ,内 
的 每 一 个 元 素 。 因 此 ,如 果 5,+5, =0,(a,)( 对 某 些 正 的 序列 a ) ,那么 5, ,的 每 
个 元 素 至 多 是 0,(a, ) ,这 意味 着 S, 。 = 0, (a, ) 。 同 样 ,使 用 柯 西 - 施 瓦 茨 不 等 式 ， 
可 得 S, ,<(5,5,)”。 再 一 次 ,标量 约束 了 S. ,内 的 所 有 元 素 。 

注意 ,如 果 S$， ;存在 ,那么 由 式 (15. 51) 和 式 (15.52) ,可 得 


Va(y -7)= [a E o,- W.) (W, -| 
xf SW -hg ETERA 


" (15; 72) 


= Spog VMS FF 
Hp g, =Z'B(X,)o 

对 于 定理 的 第 一 部 分 ,我 们 将 证 明 以 下 结果 :(i) S, g = @B +o (1), 
(ü) Spg, 8-8 =o,(n 2), (Hi) S, s,s 50,0077), AR Cv) VnSw zi 一 
N(0,O) 依 分 布 收敛 。 

(iD 的 证 明 :对 于 和 矩阵 4 和 标量 数列 a,,4 =0,(a,)(o,(a,)) 说 明 4 里 的 每 
一 个 元 素 都 是 0,(a,) (o,(a,))。 使 用 式 (15.71) ,可 得 
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mte+(m- m )—- 7-7 


wy, 
I 
Nn 


=8 $S er a < $S es ENESE 
ntv (m-m)—- 7 —- T m+er,(m- m )- 5 - TJ 


(m te.) (n. +a)! = —- ee! = @ +o, (1) 可 从 


大 数 定律 得 出 。 
BD, Sa aa) -; -is<3(S,。a) tS; +5i;i)=o(1) 可 从 引 理 15.10 和 
引 理 15. 11(i) 得 出 ,并 且 ( 这 ) 将 在 这 一 节 的 最 后 给 出 并 证 明 。 
最 后 一 项 ， 
; € 上 上 ja 
= (0 (1)o (1))'? = o (1) 


m+te,(m- m ) 一 下 


由 之 前 的 结论 得 到 ,其 中 对 于 m xm 矩阵 4,diag(4) 是 一 个 到 xl 和 矩阵 ,由 4 的 
对 角 线 元 素 构成 ,并 且 对 4 内 的 每 个 元 素 开 根 号 所 得 的 4“ 与 4 有 同样 的 维度 。 


(ii) 的 证 明 :利用 式 (15.71) ,可 得 


W-W,s- £ 
= S +Ñ o s =S 
m- M ,g-E Vg-& 


对 于 第 一 项 ,注意 n, +o 正 交 于 变 系数 函数 空间 0, 并且 注意 z -8 属于 


40 9, 我 们 使 用 引 理 15. 10 ,得 到 
EL |S...,.; 11E ny ELC, +s.) (n, +2)’ C,- 8)"] 


F-E 


d 


< Ca ( YK) EC, +o, 1°] 


1=1 


-on (> | = o(n") 
这 意味 着 5 、 ; = O (| > k] ): 


第 二 项 ,由 引 理 15. 10 得 
Sa < (Sasser) z o, | Xk) 


第 三 项 ,由 引 理 15. 10 和 引 理 15. 11(i) 可 得 
Sy z (Ss) = 0,(K/n)0, | >] 


1=1 


最 后 一 项 ,由 引 理 15. 10 和 引 理 15. 11(iii) 可 得 
4 < TE SS = 0,(K/n)0, | gd 


Ss 
"n 
l=1 


.. 


386 


第 15 章 ” 非 参 数 序列 方法 


# s Ki tr x g 4 m " 


把 上 面 的 四 项 结合 起 来 ,由 假定 15. 9 可 得 
d d 
S... = 0,(n”! + (K/n)'?) Í S kh + yk) = oin’) 


(iü) 的 证 明 :利用 式 (15.71) ,可 得 
Sa-a = Sn-a)-7- 了 .7 

= 有 
第 一 项 ,由 引 理 15. 11(ii) 可 得 

S... < (S ...S,)'? = 0 (K/n) 
第 二 项 (使 用 tr(4B) =tr(B4) ) ,由 引 理 15.10 和 引 理 15.11(ii) 可 得 

S. a E (S... S, )'2 = 0 [ y kp” ) 0, C/R Ja) 

第 三 项 ,由 引 理 15. 10(i) 和 (ii) 可 得 

S, z < (S;,S;)'? = 0 (K/n) 
最 后 一 项 ,由 引 理 15. 11(ii) Gii) BT 8 

S. z s< (S;S;)'? = 0 (K/n) 
把 上 面 的 四 项 结合 起 来 ,由 假定 15. 9 可 得 


d 
g Šg = o, (K/n + n" > h J = o (n`?) LJ 


(iv) 的 证 明 : 利 用 式 (15.71) ,可 得 491 
VnS,_s., = VR. ua üa S N 
a VnS，。。 +/n(S ， m Mi S; .) 
第 一 项 ,由 Lindeberg-Feller 中 心 极限 定理 ,可 得 
VAS prea = RY (m +v, )u, = AY eu > N(0,0) 
依 分 布 收敛 。 
第 二 项 ,由 引 理 15. 10 可 得 


E[ S° I X,z] = Lei (m — ñ) (m - m)'E[uu'| X,Z]! 
n 


(m-m),u 
< (C/n)tr|(m -— m)'(m - m)/n| 


= (C/n)S,_, = 0,(n™)0, | X K; J 
=i 


makas... = o(a [X wa] ). 


lei 
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a 7. u a š 


第 三 项 ,由 引 理 15.11(i) 可 得 
E[S; .| X,Z] = 二 tr|P (P'P)”'P'e'P (P'P) ''P'E[uu'! X,Z]| 
i n 


IN 


(C/n')tr[P (P'P) 'P'u'P (P'P) 'P'] 
(C/n)tr[ o '/n] 
(C/n)S. = o (n) 
因此 ,S; = o n’), o 
最 后 一 项 , S. =o (n)a ASE S. .=o,(n ”) 同 样 的 方法 来 
证 明 ,只 是 它 是 引用 引 理 15. 11( 这 ) ,而 非 引 理 15.11(i) 。 
综合 (i) (ii) 让) 和 (iv) 的 证 明 与 式 (15.72) ,我 们 总 结 出 Va(r - y) — 
N(0, 厂 06 一) 依 分 布 收敛 。 
对 于 定理 的 第 二 部 分 ,我 们 需要 证 明王 = 了 +o (1) ,其 中 = 8 AS, 
但 是 B=S, 5 =@B+o,(1) 已 经 在 上 面 对 (i) 的 证 明 中 被 证 明了 。 利 用 相同 的 
论证 法 ,容易 证 明 O = +o (1). 因此 ,3=Y+o(1)。 


引 理 15.9 a-a l =o, [| X k"), ha = (P'P) PS a Wa 
定 15.9, 其 中 /= 6 或 /=m。 
引 理 15.10 s. = 0,| Y K) ,其 中 /=G 或 /=m。 


引 理 15.11 (i) S; =O (K/n), (ü) S; =O (K/n), (ii) S; = 
0 (K/n). 

对 引 理 15.9.15.10 #l15.11 的 证 明 以 及 引 理 15.5.15.7 #l 15. 8 的 证 明 是 
相似 的 ,所 以 我 们 在 这 里 省 略 。 


15.6.4 ”定理 15.9 的 证 明 


(i) 的 证 明 :注意 
ú = Y -m(X,,y) =u, —- [m(X ,y) - m(X ..y,) ] 


我 们 得 到 
I = p 3 | x u p“ (X )' (P'P) p(X)u 
-2n > >, [m(X,,y) - m(X,,y,)] 


X: p" (X )' (P'P) 'p'(X)u 
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E w = 2 A ë m x 8 


+n" X [m(X,y) - m(X.,y,)] 


x p“ (X,)' (P'P) `p“ (X) 
x [m(X ,y) -m(X.,y,) ] 
= 1. -2 +I 


正如 Newey(1997) 所 述 ,我 们 可 以 证 明 7 (j=1,2,3)、5,、5, 对 于 p*(x) 的 
非 奇异 线性 转换 都 是 不 变 的 ,于 是 ,我 们 始终 假定 B=7,, 即 如 假定 15.2 定义 的 p“ 
(x) =P*(x),D K E[p'(x)p'(x)'] = (是 天 维 的 单位 矩阵 ) ,于 是 P'P/n 
的 最 小 特征 值 依 概率 收敛 于 1 ,并 且 

supp'(X)'(P'P)''p'(X ) 
A (P'P/n) sup p" (X)'p'(X)/n 


< AZ! (P'P/n) C (K)/n > 0 
其 中 A, 是 P'P 的 最 小 特征 值 。 应 用 与 Hong 和 White( 1995) 对 于 定理 A.3 的 
证 明 类 似 的 推理 ,我们 可 得 到 
nl /S = N(0,1) 


MERANER I M 1 AE 0,(n”) 阶 的 。 通 过 使 用 一 个 Talor 级 数 展开 493 


式 , 可 得 


"> (7 - y) Vm( Xsy)p" (X)'(P'P) 'p'(X)u 


"n 


-n> (Y-Y) V, m(X,,y,)p' (X,)' (P'P)”''p'(X,)u, 


+ (1⁄2)n”' 2 ($- yn y.) 
x p" (X )'(P'P) 'p'(X)u 

- (12)n" (Fy) V2m(X,,7) ($ = v) 

x p“ (X)'(P'P)'p'(X )u, 


ss: (y 一 和 = Ia? + (1⁄2) (y i HI tG; = Ea) CY ba: Y) 
HP y 是 y fl y 连 线 上 的 一 点 。 鉴于 Mustasa. 可 得 


i=1 il 
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12 53 Ea 5 %4 y w yi a 
RENEE kuwa Əm(X ,y,) 
x p" (X)' (P'P)-'p | 


< Yen ef > [2m] | 


= Cn? Y E | V m(X.,y,) | 上 = O(n") 
E( lI, ‖ >) < S cael Y pataj 
x [ supp“ (X)'(P'P)'p'(X)]] 


= Cn > E| | V m(x,,y,) || ‘bo, (1) = o(n”) 
494 由 Chebyshev 不 等 式 可 知 || L, -na | <0 (n '2), WET 1 MLI, hi 
西 不 等 式 以 及 已 (PP) PERRI Sp tH 


2 T- ma i ' 
HEDDA (nT a a PMID p“ (X,)' (P'P) ~p" (X, )u,) 


2 


W K € P n n eg š Əm(X ,y) 
h DAL 32 -a CLI PPI al LEET "F 


n 


ct 


其 中 最 后 的 不 等 式 来 自 Chebyshev 不 等 式 。 于 是 ,可 得 


2 < " Om(X,y 
l = BE (mE ERT O (Pp) tO) 


2 


K n 


> > (5 | x en] J 


: (= > u] [sup p" (X,)' (P'P) PP (X,) ]° 


IN 


390 


第 15 章 ” 非 参数 序列 方法 


i? < = tn z 2 


所 以 ， | L. a | <0 (1). 于 是 ， 
Il !< lÝ- li, -7 ll + (12) |y- y l |, - 1... 
< O (n`) 


通过 在 均值 展开 ， 
m(X,y -— m(X.,,y,) ) = Ç & (X,,2)'(?% —y,) i = Ly 


其 中 y 是 y fü y 连 线 上 的 一 点 ,因此 1 y - y, | < ly - y | ,我 们 可 以 写 出 
Li ka > (y - y|) 'V ,m(X,,y)p' (*)' (P'P) 'p'(X) 


... sn 
495 


x V m (X,,y)'(# - y.) 
-n` > (y-y) Vm(X,y)p (x )' (P'P) ~p" (X) 


xV m(x,,y)'(y -yo) 


s (y ú Y) E T 1.,)(Y Ye) 
同样 ,由 柯 西 不 等 式 和 P ( P'P) ”已 ' 是 等 寡 的 事实 ,可 得 


lI, l< xy (n'y [= (nS moa ) 








= 0 (1) 
R 
l... |< [sup p" (X,)’ (P'P) "pt (X ) 1° 
° om(X.,y) E (X ,y) 
|. ky [sy EP) s: y [28022] 
= o (1) 


所 以 ,我们 得 到 1 2. -na ll =0 (1). Wk 
ll. l< WY- y l Hi. -Dl = 0 (n"') 
概括 上 面 的 结果 并 且 使 用 在 H, Fg s =0 (K'2)81S =S +o (S ),# 
们 完成 了 (i) 的 证 明 , 即 

J: = 1/S, +0,(1) N(0,1) 口 

证 明 (ii) 的 证 明 : 在 不下 ， 

ú = Y, - m(X,,y) 
=u -[m(X.,y) -m(X,,y`)] - [m(X,,y°) - 0,(X.)] 


其 中 7 表示 y 的 概率 极限 。 因 为 yY-y” =o (1) H E(u 1X) =0, 容 易 证 明 与 
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o = 5 a Ea w * 1 5 


m(X ,y) -m(X y) A u, 相关 的 各 项 都 是 。(1) 阶 的 。 于 是 ,在 太 下 , 首 项 
是 接 下 来 的 既 不 包含 u, 也 不 包含 m(X,,yY) -m(X,,y" ) 的 项 。 于 是 ,可 得 

I° = À. +o,(1) (15.73) 
其 中 


À an” >> [m(X.,y`) - 06 (X)]p" (X)'(P'P) 'p'(X) 
x [m(X y") - 9,(X)] 
因为 存在 一 个 Kx1 向 量 8 ,使 得 当 K 一 % 时 ， 
E[lm(x,y`) - 0 (zx) - p“ (x)'B, 12] — 0 
通过 加 减 项 ,可 得 
> p“ (X)'(P'P) 'pP'(X)[m(X,,y") - 0,(X,)] 
= [m(X y") -0,(X,)] +[p"(X)'8, -m(X.,,y°) +0 (X.)] 
+ 2 p(X)'(PP) 'p'(X)[m(X,y") - 6 (X) -p'(X,)'B,) 
(15.74) 
将 式 (15.74) 代 入 式 (15.73) ,注意 与 [p” (X .)'B, -m(X ,y") +0,(X,)] 
相关 的 项 都 是 o (1) 阶 的 ,可 得 
A = n”! > [m(X ,y`) - 0, (X .) ]° 
+n > [m(X,,y°) - 0,(X,) ] 
x [p'(X)'8, -m(X, y") + 0 (X )] 


n' Y > [m(X.,y ) -0 (x )]p'(X)'(P'P) 'p'(X) 


x [m(X.,y`) - 0 (X) -p'(X)'8,] (15.75) 
WX El[p' (x)'B.-m(x,y" ) +0,(z)] | =o (1) ,可 得 
7 El[m(X.,y") - 0 (X)]] =C >0 
因此 ,由 式 (15.75) 以 及 S =0, (KP) A S, =S} +o (S) ) 的 事实 ,我 们 得 
到 在 Hr 下 ,J =nl,/5,=0,(n/K'”)。( 站 ) 也 立即 得 证 。 口 
15.6.5 定理 15.10 的 证 明 
在 这 一 节 我 们 使 用 没有 下 标 i 的 字母 (一 般 为 大 写 ) 来 表示 向 量 或 者 矩阵 。 
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5 e x ~x xs ks d si ~ 


比如 说 ,K(X,x) UÙ m 和 g(x) 都 是 n x 1 向 量 ,其 第 i 个 元 素 分 别 是 K(X ,x)、 
um(X,) 和 中 (x)。 当 然 对 于 nx1( 或 4x1) 向 量 4, 我 们 用 1 41 去 表示 
它 的 欧 几 里 得 范 数 。 
定理 15.10(i) 的 证 明 : 注 意 
ú = Y, -z (X,)'y - p“ (X,)'6 
=u, -2 (X,)'(y - y) + m(X,) - m(X,) 
H (X) = p" (X)'8 = p" (X)'(P'P) P'(Y- 27)。 
于 是 我 们 可 得 ,用 向 量 一 矩阵 表示 法 有 
m= P(P'P)- P'(Y - Zy) =M(7-2Z7) 
= M [U - Z (y -y) +m] 
Ü=U-MU-(L -M)Z(y-y) +I -M)m (15.76) 
利用 式 (15.76) 可 得 
J (a) =n”? Y HX =n (HX,x))'U 


= n (H(X,x))'U - n'2?(H(X,x)'MnU 
-n '?(H(X,z))'(I - M )Z,(y - y) 
tn (H(X,x))'(T -M )m 
= J (x) - J.,(z) - J,,(z) + J,,(z) (15.77) 
引 理 15.12 证 明了 | JaC) -np UN, =), JEP o(a) E 
个 nxl 向量 ,其 第 i 个 分 量 是 $(x) =E [M(X ,x)]s 31% 15. 14 建立 了 
lJa) -ny (-)'V,=o0,(1), 其 路 (x) 是 一 个 nxl 向 量 ,其 第 i 个 
分 量 是 (x) =E[H(X,,x)e',]|E[s,e,]! "s,s,=2(X) -El[z(X)]。 
引 理 15. 13 证 明了 1 JaC) ,=0,(1)。 


定义 
J.(z) = n"? > [M(X,,z) - $,(z) - #,(z) lu, 
= n°’? Y Z (as) 
然后 ,由 引 理 15.12 到 15. 14 ,可 得 
LÍC) -JCI = o (1) (15. 78) 


容易 看 出 E[| J (:) l] <%, 即 J(… ) 是 紧 潜 的 。 于 是 ,通过 Hilbert 值 
随机 数组 的 中 心 极限 定理 可 得 
JC) EL (S.v, I- |,) 上 弱 收 敛 于 Ja (C) (15.79) 
Joh J. ( : ) 是 一 个 高 斯 过 程 ,其 具有 零 均值 是 其 协 方差 函数 为 
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=< - u pe Ss ~ z B 


X(z,z') = cov(J (x),J,(x')) = E[Z (s)Z,(x')] 
= E|o'(X)[M(X,,x) -由 (xz) - #,(z)] 
x [H(X x’) - $,(x') - #,(z)]! 

等 式 (15.78 ) Ika J ( ` ) 和 J(，) 有 同样 的 极限 分 布 ,于 是 , 它 和 式 
(15. 79) 都 意味 着 J ( ` ) 弱 收敛 于 J.(， ) 。 于 是 我 们 完成 了 定理 15. 10(i) 的 
证 明 。 o 

定理 15. 10(ii) KWEMA) 2 |[J(z)] F(dx) EEL, CS, F) 上 的 
一 个 连续 函数 。 给 定 F X: Lebesgue 测度 v 是 完全 连续 的 , hEL (S, v) 
上 也 是 连续 的 。 因 此 , 通过 定理 15. 10 (i) 和 连续 映射 定理 ,可 得 
JEI) T F(ax) 依 分 布 收敛 于 fU, (z)]?F(dz)。 

现在 ,定义 4. = CM, -h(j'). Li, Hsiao 和 Zinn(2003) 证 明了 4. =o (1), 

因此 ,由 定理 15. 10(i) 和 连续 映射 定理 的 结论 可 得 

CM, = [[j.G01 PCda) +A, = [CoO] FOdx) +o, (1) 


一 JUJ, (=) ] F(adx) 依 分 布 收 全 
499 ”这 完成 了 定理 15. 10(ii) 的 证 明 。 

下 面 我 们 给 出 在 定理 15. 10 的 证 明 中 使 用 到 的 一 些 引 理 。 对 于 一 个 nxd 
矩阵 4, 我们 记 4 = MA tE R 4, 为 4 的 第 i 个 分 量 。 例 如 , 击 = M m, 
Z e M Z.. 

引 理 15. 12 1J.(.)-n “4$(.)'UI =o(1), 其 中 由 (zx) 是 一 个 
n x1 向 量 ,其 第 i 个 元 素 是 (x) =E [H(X ,x)]。 

证 明 : 定 义 V(x) = HH(X,x) -p (x) A E [V (x)] =0 jË R. 
E [V (z) ] 对 于 任意 的 xe 5 是 有 界 的 ,同时 我 们 由 引 理 15. 15 和 15.16 可 得 

E[| J (e) -— n 24 (:)'U |` 1 X] 
= n'[[C(X,z)'M,) - $ (x) 'JE(UU' | X) 
x [M M(X,x) - $(x) jv(dx) 
< ca" [[M, H(X,x) - A(x) ]'[M, HOX,x) -由 (xz)]z(dz) 
= Cn” || M H(X,x) -中 (xz) ||? 
= Cn™ | M (bx) + V(x)) -中 (xz) I? 
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$š 8 D š l R B R s 


<2Cn | | M p(x) - (x) |” + || M VC) ||?! 
= o, | y K + K/n J = o (1) 
引 理 15.13 | J。(')-n yp )UIl =o (1). 
证 明 : 注 意 z,(X,) -2(Z) 估 计 了 es, =z (X) -已 [za(X)], 或 者 以 矩阵 表 
m Z -M,Z, 估计 了 se。 由 引 理 15. 17 TACY- y) = |Ele e ]} n > eu, + 
(n?) 。 使 用 引 理 15. 15 和 15. 16 可 得 
ln” HCX *:) "(I - M )Z, - E[%(X,, -)'e,] | = o (1) 


因此 ， 
J.C) =n2H(E，.) (1 - M )Z (7 - y) 


= E[M(X,, *)e,J[n '” (y -y)] +o (1) 

= E[W(X,,)a l Eee [n Xaa, ] +0,0) 

= n "2 0(:)U +o (1) D! 
引 理 15.14 1 J.(…)1 :=o(1)。 
证 明 :由 引 理 15.15, 
I <n ES HCE,) HO, z) (m, 一 元 )(m - m )v( dx) 


< CY |[(m - m.) ]>(dx) 


= C[] m- à | 2] = n0 ($) = o (1) 
引 理 15.15 $ f(x)=/f(x,X ) e G TWmARAK), HEPA (x, X) Æ dx1 


维 的 (d 是 一 个 有 限 的 正 整 数 )。 令 f, (x) 表示 n x d EERE i ES a)’ 


EN f (x) =M f.(x) ,那么 
ne) - M f,(z) |; = 0, [ E K] = o, (1) 


证 明 : 由 Andrew 和 Whang( 1990) L1 £ Newey ( 1995 , 1997 ) 的 结论 ,或 者 由 
Li(2000 ) 的 引 理 A.4， 


n BE[1ACz) - M f,(x) ||2] =n Ef (x) - f , (z) |] 
"EL |f,G) - f Ca) |2 1504) 


o (5) 
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m 3 53 z % w a a * 


31 15.16 v (x)=V(x,X,), E (s(z))=0 H E ([s(z)] ) 在 xeS 
上 是 一 致 有 界 的 。 同 样 ,定义 了 (zx) = (v(x),…,v,(x))', 以 及 V(x) = 
MV(x)。 然 后 ,可 得 
n™ |M .V(:) |; =a? | V(:) I? = 0,(K/n) = o (1) 
501 证 明 :不 失 一 般 性 ,我 们 可 以 假定 ELp“ (X, )p'(X)'] = 1 ( W 15.6 节 开 始 


部 分 的 论证 ,在 定理 15.1 的 证 明之 前 )。 首 先 我 们 证 明 
E[| P'V(-)/n | ?] = 0((K/n)'®) 


注意 p"(X,) e gflv( - ) 1 9 意味 着 E[p"(X,)v,(， )] =0。 可 得 
E[ || P'V(:)Zn||*] 
= aÍ > JEI», (xz)2?p (X )'p'(X )]v(dx) 
+ XX |E[w(z)P (X,)'] x Elv (a)p* (X) (da) | 


= n'[|E[e, (=)°p" (X,) p(X,) ] (dx) 
< Cn `'E[ p* (X )'p'(X )] = O(K/n) 


这 意味 着 
| P'V(x)/n ||” = O (K/n) = o,(1) (15.80) 


那么 由 式 (15. 80) 和 | (P'P/n) -I || =0 (¿¿(K)/K//n) =o,(1) 的 事实 ( 见 
Newey( 1997 ,pp. 161 一 162 ) 关 于 定理 1 的 证 明 ) ， 


n™ M VC) I3 = n™ fV (x)'M V(x)v( dx) 
= [CY (=) ‘p/n) (P'P/n)` (P'V(x)/n)v(dx) 
Š [O (O P/n) [I + (P'P/n) - I] (P'V(x)/n)v(dx) 
= [I P'y(z) Zn I 0 + 0,(1) ]v(dx) 


= [0,(K/m) [1 +0,(1)]v(dx) 
i 0 (K/n) = o (1) 
引 理 15.17 


(7 -7) = IElee, li {n E eu} +o (n?) 
502 rh e, =z (X) -E [z (X,) l. 
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这 在 Li(2000) 的 定理 2. 1 中 已 经 证 明 。 注 意 引 理 15.17 意味 着 y -y= 
O (n!) 


15.7 2J 题 


习题 15.1 假定 E(w IX) =E(w ) =o ,证 明定 理 15.2, 
提示 :定义 4 =n-'?V- (la) -g(x))。 然 后 证 明 (i) ,由 假定 15.2, 
E[A,] = O((nK)'®K™®) = o(1) 
var[ A ] = 有 LT var(g(%)) = nV''[n V, +o(1)] = 1 +o(1) 

可 证 实 Liapunov 的 中 心 极限 定理 条 件 对 4 成 立 。 于 是 , 4 -SN(0,1) 。 进 一 
步 ,证 明 (ii)V=V +o (1) 

定理 15.2 由 (i) 和 (i) 可 得 。 

习题 15.2 ”推导 式 (15. 14)。 

下 面 的 三 个 习题 参考 15. 3. 2 节 ( 非 线性 可 加 成 分 的 选择 ) 。 

习题 15.3 ”对 使 用 适 级 数 估计 量 的 可 加 模型 编写 一 个 程序 ,并 且 使 用 
Huang 和 Yang(2004) 的 BIC 标准 选择 显著 性 变量 。 

习题 15.4 重复 习题 15. 3 ,但 是 使 用 去 一 法 选择 序列 项 的 数目 。 


习题 15.5 证 明 在 式 (15. 35) 中 定义 的 b. 是 由 b = | g&.(z.)Pi(z)dz。 
给 出 。 
提示 :对 式 (15. 35) 的 两 边 都 乘 以 六 (z ) ,关于 z, 积分 并 且 利用 
Jpil(z)p,(z,)d, = 8, 
习题 15.6 ”证明 式 (15.60 ) 。 
提示 :(i) 定义 
I = n° > > up (*)'(P'P) p'(x.)u 


= 2n ”>》 > up (xz) (PP) p'(x)u, 
计算 E[ (n/K'2 ) 9 JA sari Ck 2r? ], HERE H, F, 
(n/K)'2 t 76? >N(0,1) 
Gi) 证 明 严 -Po =o (K'2/n), E3 (15.60) TU OM GDEK. 
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[m] [=] [m] 回 [m] 回 [m] m) 回 回 [m] [m) 


第 5 部 分 
时 间 序 列 、 联 立方 程 
和 面板 数据 模型 


[m] [=] 国 [m] [s] [m] 回 [m] [m] m) [s] [m) 


第 16 音 工具 变量 和 
半 参 数 模型 的 有 效 估 计 


回归 元 和 随机 干扰 项 在 参数 回归 模型 中 是 不 相关 
的 这 个 假定 ( 即 回归 元 是 外 生 的 ) 对 于 推导 一 致 性 来 说 
是 一 个 关键 的 假定 。 甚 至 当 其 他 的 经 典 假定 都 成 立时 ， 
如 果 这 个 假定 不 成 立 ,那么 最 小 二 乘法 就 失去 了 其 作为 
一 个 估计 量 的 吸引 力 。 在 很 多 社会 科学 应 用 中 ,这 个 假 
定 可 能 会 被 违背 。 一 个 经 常用 于 这 种 情况 的 替代 方法 
被 称 为 “工具 变量 "方法 或 者 简称 为 “IV 估计 ”。 然 而 ， 
参数 模型 并 不 是 唯一 的 一 类 当 回 归 元 是 内 生 时 遭受 影 
响 的 模型 。 在 这 一 章 ,我 们 考虑 一 组 为 了 处 理 内 生 回归 
元 的 出 现 而 被 发 展 的 半 参 数 估计 量 。 


16.1 在 参数 部 分 具有 内 生 回 归 元 的 
部 分 线性 模型 


我 们 首先 考虑 一 个 下 列 形式 的 半 参 数 部 分 线性 时 

间 序 列 模型 2 
Y=XB+0(2,) +u, t=1,.,n (16.1) 
HEP X, Æ p x1 维 ,B6 是 一 个 p xl 维 的 未 知 参 数 向 量 ,Z， 
的 维度 是 g, 并 且 9(: ) 是 一 个 非 指定 的 平滑 函数 。 我 们 
允许 X, 包含 了 的 沾 后 值 ;比如 XX, 的 第 一 个 元 素 可 能 是 
7 _, ,因此 , 式 (16.1) 构 建 了 一 个 非 参数 动态 模型 。 我 们 
将 假定 Z, 在 E(u,|Z,) =0,s<1 的 意义 上 来 说 是 弱 外 生 
性 的 。 对 依赖 数据 (比如 时 间 序 列 ) 的 非 参 数 估 计 的 渐 


O 见 第 18 章 对 依赖 数据 非 参 数 估 计 的 渐 近 理论 。 
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w 六 及 X 2 f L2 A * 


近 理 论 在 第 18 章 讨论 。 

我 们 允许 误差 u, 是 序列 相关 的 这 种 可 能 。 如 果 8(z) =z'y 关于 z 是 线性 
的 , 式 (16. 1) 成 为 一 个 参数 线性 模型 ,我 们 可 以 选择 一 个 Z,_, 的 线性 组 合 ,比如 
Z' ia, 作 为 关于 了 了 _, 的 一 个 工具 变量 (a 是 一 个 g x1 常数 向 量 ) ,因为 根据 我 们 
Z, 是 弱 外 生性 的 假定 ,可 以 证 明 在 一 般 情 况 下 ECY, Zaa) #0, UK 
E (uZ ia) =0。 于 是 ,如 果 模 型 关于 Z, 是 线性 的 ,那么 Z, ,是 了 ,一 个 适当 
的 工具 变量 。 然 而 ,对 于 一 般 函 数 0(:), 7,_, 和 2,., 有 可 能 是 不 相关 的 。 例 如 ， 
为 了 阐释 的 简单 ,假定 Z, 是 一 个 标量 ,并 且 假 定 9(2Z,) = Z, ,数据 是 严格 平稳 
的 , 且 E(Z,，) =0。 然 后 ,可 以 证 明 ECY, Z) =0( 习 题 16.1)。 因 此 , 当 9(:) 
的 函数 形式 未 知 时 ,我们 不 能 把 Z, ,作为 了 ,的 工具 来 使 用 。 由 式 (16.1) ,了 _， 
与 Z, ,的 某 些 函数 显然 是 相关 的 ,比如 8(Z,,)。 如 果 我 们 限制 自己 根据 Z, 
的 函数 去 构建 一 个 工具 ,那么 ,根据 Newey(1990a) ,可 以 证 明 在 这 种 情形 下 的 
最 优 工具 是 E(Y,_, |2,_,)。 这 个 最 优 工具 函数 是 未 知 的 ,但 是 可 以 用 任 一 非 参 
数 方法 ,比如 核 方法 .k-nn 方法 或 者 序列 方法 ,一致 地 估计 出 来 。 

等 式 (16. 1) 包 含 一 个 未 知 函数 9(: )。 由 Robinson(1988) ,我 们 首先 消除 
9(*)。 对 式 (16. 1) 关 于 Z, 取 期 望 ,然后 ,由 式 (16. 1) 减 去 它 ,可 得 
| Y, - E(Y,I Z,) = (X, - E(X, I Z)) 6 +u mo B +u, (16.2) 
其 中 我 们 使 用 E(w,|2,) =0 #l v, Z X, -E(X,|Z,)o WH v, 和 可 能 是 相关 
的 ,因为 w 包含 了 的 滞后 值 ,并 且 u, 可 能 是 序列 相关 的 。 假 定 存 在 一 个 d x1 
(d=p) 工 具 变量 WW,, 其 与 X, 相关 但 是 与 u, 不 相关 ( 详 见 下 面 的 式 (16.5))。 
把 式 (16.2) 改 写 为 向 量 一 矩阵 形式 ,和 wv(v=X-E(X|1Z) ) 都 是 n xp H, W 
是 nxd 维 ,Y E(Y|Z) A u 都 是 n x1 维 。 将 式 (16.2) 的 矩阵 形式 乘 以 W, 
可 得 

W'(Y-E(Y|I Z)) = W'vB+W'u (16.3) 
对 式 (16.3) 使 用 最 小 二 乘法 ,由 下 式 可 得 B 的 IV-OLS 估计 量 
Bo = (w WW'o) 'o'WW'(Y - E(Y I Z)) 
= B + (v'WW'v) wv WW'u (16.4) 
其 中 下 和 wv 分 别 是 nxd 和 nxp 维 ,其 典型 的 行 由 W' 和 wi 给 出 。 


我 们 引入 下 列 条 件 来 推导 B ,vo 的 渐 近 分 布 ， 
W'v/no E[ Wv] =A 


15 > E[WW'uu,] SB 
t=l s21 


Wi; ae N(0,B) (16.5) 
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其 中 我 们 要 求 4 是 列 满 秩 的 并 且 B 是 一 个 有 限 的 正定 和 矩阵。 注意 当 数 据 关 于 t 

是 独立 同 分 布 时 (如 横 截面 数据 ) ,或 者 u, 是 一 个 蒜 差 分 过 程 时 ,那么 在 式 

(16.5) th B=E[o'(W,)W,W',] (o? (W,) =E(wu?|W,))。 对 于 一 般 的 时 间 序 列 

数据 , 当 u, 不 是 一 个 蒜 差 分 过 程 时 , 的 表达 式 依赖 于 wu, 的 特定 误差 过 程 。 
利用 式 (16.5) ,容易 证 明 


Vn(Bwo - B) — N(0,V,) 依 分 布 收敛 (16. 6) 
其 中 mm =Q 'A'BAQ ',Q =4'4, 其 中 4 和 B 由 式 (16.5) 定 义 。 式 (16.6) 的 证 
明 留 作 习 题 (见习 题 16.2) 。 

接 下 来 我 们 考虑 一 种 情形 , 当 u, 是 蔷 差 分 过 程 并 且 是 条 件 同 方差 时 , 即 误 
差 项 ,使 得 E(u |W, Z, A.) =0(0, 表示 一 直到 时 期 7 的 信息 集 ) ,并 且 
E(u 1W,,Z,,0,.,) =E(u2) =o*。 式 (16.3) 中 的 误差 W'u/Yn 的 方差 为 B = 
o E| WW'] 。 在 这 种 情形 下 ,我 们 可 以 使 用 下 面 的 IV-GLS 估计 量 估 计 8: 

Bre = (v'W WW) W!) vw WwW WW WY- E(YI Z)) (16.7) 

为 了 推导 B ve 的 渐 近 分 布 ,我 们 做 出 下 面 的 假定 

W'o/n>E[Wv,] =A 
W'W/n— E[W,W'] = B 


W'u/n > E[ Wu] = 0 


W'u/ nS N(0 ,o2B) (16.8) 
如 果 我 们 使 用 式 (16. 8) ,可 以 直接 证 明 
Vn(Bwc - B) — N(0,V,) 依 分 布 收敛 (16.9) 


其 中 Vo。=o (A B'A’) JEP A M B 的 定义 见 式 (16.8)。 
可 以 证 明 Ve - V, 是 负 半 定 的 ( 见 White(1984))。 因 此 ,Bw 是 比 Biwo 更 加 


渐 近 有 效 的 。 当 条 件 同 方差 误差 的 假定 被 违背 时 ,Bw 仍然 是 一 个 对 于 p 的 Vn 
一 致 估计 量 , 但 是 它 可 能 有 一 个 不 同 的 渐 近 方差 ,并 且 可 能 不 会 比 Bwo 更 加 
有 效 。 

WX =(Y1,…, 了 ,6 ,和 8%) ,其 中 和 的 维度 是 d - d, ,假定 ZX 是 弱 外 生性 
的 , 即 对 所 有 :<s,E(u, |X2) =0。 当 我 们 想 使 用 一 个 Z，, 的 函数 为 7, 构建 一 
个 工具 时 ,我 们 就 需要 为 X= (Y,，,…,Y,_, ) 寻找 工 具 。 如 上 文 讨论 的 ,W, = 
E(Y,,12,.,) 应 该 被 选 为 了 ,的 工具 。 $ W,= (Wa, Wa), Jt iB W, = 
E(Y,_ ,12 ,),s=1,…,dio @% ó =X,- É(X,|Z,) M Y, = É (Y, | Z, ) 分 别 表 示 
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X, 一 E(X,|2Z,) 和 E(Y,|2Z,) 的 非 参 数 估 计量 ,那么 ,可 行 的 IV -GLS 估计 量 为 
Bivo = (P'WW';) i WW'(Y - E(YI Z)) (16. 10) 
如 果 误 差 是 条 件 同方 差 的 ,我 们 可 用 可 行 的 IV-GLS 估计 量 估计 B: 
Bwe = (WW'W) Wi) WwW WW WY - E(YI Z)) (16.11) 
在 非 参 数 估 计 均 方 误差 有 比 n““ 更 小 阶 的 条 件 下 ,可 以 证 明 : 
Vn(Bv - B) — N(0,V,) 依 分布 收 敛 (16. 12) 
其 中 V, 是 在 式 (16.6) 中 被 定义 的 ,如 果 误 差 u, 是 蒜 差 分 过 程 并 且 是 条 件 同方 
差 的 ,那么 
Vn(Bwvc - B) — N(0,V,) 依 分 布 收敛 (16. 13) 
其 中 VV 与 式 (16.9) 的 定义 是 一 样 的 。 
如 果 我 们 使 用 非 参 数 核 方法 , 式 (16. 12) 和 式 (16. 13 ) 的 证 明 是 与 第 7 章 中 


定理 T l 的 证 明 类 似 的 。 今 B 表示 Bivo 或 者 B we „B 表示 Bo 或 者 R... 可 以 
记 Vn(B-B)=Vn(B-B) +Vn(B -p). B-B 是 | > hr + (ni ci) ] 阶 
的 (> 是 核 函数 的 阶 数 ) 。 如 果 B -8 是 on 2 ) 阶 的 ,那么 我 们 由 式 (16.6) 和 
式 (16. 13) 可 得 Va(6-B) =Vn(B -B) +o,(1) 一 N(0,V)。 于 是 ,可 行 估 计量 
与 不 可 行 估计 量 B 具有 相同 的 (一 阶 ) 渐 近 分 布 。 


16.2 在 参数 部 分 具有 内 生 回 归 元 的 一 个 变 系 数 模型 


我 们 考虑 一 个 具有 下 列 形 式 的 横 截 面 或 者 时 间 序 列 数 据 的 变 系 数 模型 
Y, = X'B(Z,) +U, t = 1,.,n (16.14) 

Hp X, 是 p x1 维 的 ,B 是 未 知 函数 的 p x 1 向量 ,并 且 2Z, 是 9 维 的 。 我 们 允许 
X 包含 内 生变 量 , 比如 E(u, |X ) 关 0。 我 们 假定 2 是 ( 弱 ) 外 生 的 , 即 
E(u,|Z,) =0,s<<t, 如 果 它 是 一 个 时 间 序 列 , 或 者 可 以 简化 为 E(u |Z) =0, 如 
果 我 们 有 独立 的 数据 (如 横 截 面 数据 ) 。 

假定 存在 一 个 工具 变量 向 量 v 使 得 E(u lo.) =0, HRE E[ E(X,|x,) X, '] E 
非 奇 异 的 。 那 么 ,我 们 可 以 使 用 W, = E(X,|,) EA X, 的 一 个 工具 。 例 如 ,对 于 时 
间 序 列 数据 ,如 果 X,=Y,_, 目 Z, 是 外 生 的 ,那么 我 们 可 以 使 用 选择 o, = 2Z,_, ,这 可 
以 得 出 W,=E(Y,., 2)。 

S W#lX H nxp3EE,Y llu nxi 和 矩阵 ,以 及 KK, ,为 一 个 nxn XF fi 


阵 , 其 第 个 对 角 元 素 为 K。= [TA ECZ, - Z.)/h,) ,那么 
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B(z) = (W'K, X) 'W'K, ,Y 
= B(z) + (W'K, X) 'W'K, u 


= Bp(z) + | 5 W, X’, Ka | | > W,u,K, , (16.15) 


在 数据 都 是 独立 同 分 布 的 假定 下 ,关于 B(z) 和 f(x,w,z) 的 某 些 平滑 性 假 
定 成 立 , 并 且 关 于 (%,,w,，,z,,u,) 的 某 些 矩 条 件 成 立 ,然后 我 们 在 16.4 节 证 明 


nh h, | BC) -B(z) - > MB, (a) ] SN(0,0.) — (16.16) 
其 中 
B.(z) =(1⁄2)x,M;'|f.(z)B..(z)E[ WX, '| Z, ==] 
+28,(z)E[ WX, 'f.(X,,W,,Z,.)/ (X, ,W,|Z, =z) "IZ =z|]] 
M, =f. (z2) E[ W,X,' |Z, =z] 
N, =M; VM 
V.=<'f.(z)E[W,X, 'o?”(W,,X,,Z,) | Z, =z] 
o'(W,,X,,z) =E[ u? |W,,X,,Z, =z] 
注意 如 果 处 是 外 生 的 ,那么 我 们 可 以 选择 W, =X,, 并 上 且 式 (16. 16) 简 化 为 
第 9 章 中 考虑 的 结果 。 
式 (16. 16) 中 给 出 的 正 态 结论 对 于 弱 依 赖 混合 数据 仍然 是 可 行 的 ,给 定 混 
合 系数 满足 一 定 的 衰变 率 并 且 误 差 项 u, 是 款 差 分 过 程 。 
最 优 工具 函数 W. = E[X,|s, ] 是 未 知 的 ,但 是 可 以 用 任 一 非 参 数 方法 ,比如 
核 方法 -nn 或 序列 方法 一 致 估计 出 来 。 如 果 使 用 核 方法 ,那么 ,对 于 B(z) 一 个 


可 行 的 估计 量 可 以 通过 在 式 (16. 15) 中 把 本 JH W, = Ë(X,|x,) = > X,K( (s, - 


0.)/6)/ >` K( (s, — v,)/b) 替代 得 到 。 令 B(z) 表 示 B(z) 最 终 的 可 行 估计 量 , 然 
后 ,在 与 Cai,Das ,Xiong 和 Wu(2006) ,Cai 和 Li(2005 ) ,以 及 Das(2005) 给 出 的 相 


似 的 正则 条 件 下 ,比如 > 如 = o[ X h), 可 以 证 明 6(z) 与 式 (16. 16) 中 给 出 的 


B(z) 具 有 同样 的 渐 近 分 布 。 

在 上 面 的 半 参 数 模型 中 ,我 们 仅仅 考虑 了 参数 部 分 是 内 生 的 情形 ,然而 , 非 
参数 部 分 仍然 是 外 生 的 。 当 非 参 数 部 分 是 内 生 的 , 渐 近 分 析 将 会 更 加 复杂 。 在 
接 下 来 的 一 节 中 我 们 讨论 一 般 的 半 参 数 模 型 , 即 在 非 参数 部 分 中 可 能 出 现 内 生 
变量 。 在 第 17 章 我 们 将 在 一 个 完全 的 非 参 数 体系 中 讨论 内 生 回归 元 。 
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Ai 和 Chen(2003) 为 了 在 下 面 形式 的 条 件 矩 限制 下 估计 一 个 计量 模型 考虑 

了 一 个 一 般 的 框架 
Elp(Z,00,80(*))1! X] = O (16.17) 

其 中 误差 p(: ) 是 一 个 已 知 函 数 形式 的 标量 ,9。 是 一 个 &xl 的 有 限 维 参数 向 
量 ( 模 型 的 参数 部 分 ) ,并 且 gC) = (go ,8m，… ,8o,) 是 未 知 函 数 向 量 。 含 有 未 
知 函 数 gol) 允许 式 (16. 17) 包 括 许 多 重要 类 型 的 半 参 数 和 非 参数 模型 。 比 如 
说 , 它 包括 在 第 7 章 中 研究 的 作为 特殊 情形 的 部 分 线性 模型 ,p(Z ,bo ,go) =Y- 
Xib - g (X,) ,以 及 在 第 8 章 中 研究 的 单一 指数 模型 ,p(Z,b.go) =Y- 
go( 天 "go ) 。 

在 Ai 和 Chen( 2003 ) 中 考虑 的 一 个 主要 的 例子 是 这 样 一 种 部 分 线性 模型 ， 
内 生变 量 进入 模型 的 非 参 数 部 分 , 即 p(Z ,bgo(')) = Y, -Xib — go ( Y,) ,对 应 
的 回归 模型 是 Y, =XIi6 +g  ( Y,) +u, 但 是 因为 Y, 是 内 生 的 ,E(u|X,,Y,)z0。 
在 这 个 情形 下 ,我 们 需要 假定 存在 一 个 工具 变量 向 量 X, ,使 得 E(u|X,,X,) = 
E[ Y, -Xib — gÚ ( Y,) |X,,X,] =0(X, 作为 到 的 一 个 工具 )。 


16.3.1 估计 过 程 


4 Z 包含 内 生变 量 时 ,我 们 不 能 通过 标准 最 小 距离 或 者 将 广义 矩 估计 法 
(以 下 简称 GMM) 应 用 于 p 估计 出 as 三 (9, ,go)。 在 式 (16.17) 识 别 出 o, = 
(0, ,go ) 的 假定 下 ,Ai 和 Chen(2003 ) 建 议 , 首 先 把 p(2Z,a) 投 射 到 外 生变 量 X 的 
空间 上 。 定 义 m(x,a) = 下 [Lp(Z,a) |X=x] ,然后 ,用 最 小 距离 估计 量 估计 a = 
(9,g) , 即 最 小 化 E[m (X,a) /ao (XX)], 其 中 oa (X) =var(p(Z,ao) |X)。 注 
意 ,在 实践 中 ,m(:) 是 未 知 的 原因 有 二 : (i) go(:) 有 一 个 未 知 的 函数 形式 ， 
(ii) 即 使 我 们 知道 gu ,给 定 了 则 p 的 条 件 期 望 仍然 是 未 知 的 。 

如 果 g 是 已 知 的 ,我 们 可 以 用 非 参 数 的 方法 估计 m(:), 即 序列 方法 。 令 
BCX) (7 =1,2,…) 表 示 已 知 的 基本 函数 序列 (震级 数 、 样 条 、 傅 里 叶 级 数 等 ) ,并 
HS p“(X) = (p (X), pk. (X)') ,那么 m(x,a) 的 非 参 数 序 列 估 计量 如 下 : 

m(X,a) = p''( X)'+ (16.18) 
其 中 广 =(P'P) 'P'o( * ,we),P = (p (X), p (X.,))'E n x K, 维 的 ,并 且 
p( ` ,al) 是 nxl 维 的 ,其 第 i 行 是 p(2,,a)。 用 m(X,a) 的 非 参 数 序列 估计 量 


© Ai 和 Chen(2003) 考 虑 了 这 样 一 般 的 情形 ,其 中 p 是 一 个 向 量 值 函数 。 这 里 ,为 了 表达 的 简洁 
性 ,我 们 只 考虑 p 是 一 个 标量 的 情形 。 
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ñ(X,a) ,如 果 g 是 已 知 的 ,我 们 可 以 通过 最 小 化 下 式 估计 0: 
Ppl [ñ (X,,0,z) 1762 (X,) 

其 中 6*(X) 是 o*() 的 一 致 估计 ,引信 ez(X) 是 为 了 处 理 潜在 的 异 方差 性 。 

然而 ,事实 上 z 也 是 未 知 的 。Ai 和 Chen(2003 ) 建 议 使 用 巨 样 条 、 傅 里 叶 级 
数 或 者 小 波 过 滤 基 ( wavelet sieve basis) W i£ g (Z), $ q" (:-) = 
(9 (') ,9 COVER L, 个 基础 函数 ,那么 ,可 以 使 用 q" (Z) 8 8 E 
g(2Z) ,其 中 B 在 假定 9 e @ FA L. x 1 维 的 ,@ 是 RR“ 的 一 个 紧 子 集 。 这 里 , 假 
定 基础 函数 qg e K, ,其 中 Ht, 是 一 个 可 以 计算 的 有 限 维度 紧 参 数 空 间 的 过 滤 空 
间 , 其 在 连续 函数 空间 内 随 着 n 增 大 变 得 密集 。 

在 式 (16. 18) 中 对 一 个 K, 的 给 定 值 ,(8,g) 的 估计 成 为 (6,B) 的 估计 。 可 
以 用 (96,B) 估 计 (9,B) , 它 是 由 下 面 的 最 小 化 问题 的 解 来 定义 : 


[?] = arg min n Y mn(X,,0,q "(Z,)'8)2/6G2(X,) (16. 19) 
B (0.B 


)e OXR in i=l 


g(z) 的 最 终 估 计量 是 8(z) =q" (2) B, 

加 权 函 数 o*() 是 用 于 有 效 性 的 考虑 。 如 果 误 差 是 条 件 同 方差 的 ,我 们 可 
以 简单 地 用 1 代替 o? ,或 者 ,如 果 主 要 对 得 到 (9,g) 的 一 致 估计 量 感 兴趣 ,但 是 
不 太 在 意 ( 渐 近 ) 有 效 性 ,也 可 以 用 1 替代 o* (X) 。 在 这 种 情形 下 ,可 以 简单 地 
最 小 化 (关于 (9,B) ) 下 式 : 


n Y [i(X,,0,g" (Z) 'B) f 
上 面 的 半 参 数 估计 量 可 以 被 理解 为 GMM 估计 量 。 令 (6 ,8 ) 表 示 最 终 的 
估计 量 ,结合 式 (16. 18) 和 式 (16. 19) 且 用 1 替代 2(X) ,可 得 


[i = min 5 p(Z,,0,4"(Z,)'B) =O) PUR 


x | > p(2,0,9" (Z) 'B)p'*(X,) ) (16.20) 
我 们 将 在 下 一 节 讨 论 6 的 渐 近 分 布 。 
16.3.2 0 的 渐 近 正 态 性 


假定 对 于 几乎 所 有 的 Z,p(Z,(1 一 T) ao + rao ) 在 T=0 是 连续 可 微 的 。 表 
示 在 a 处 在 [a -oj 方向 的 一 阶 方向 导数 为 


S13 
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= € w t& a a 5 

do(Z,a,) def do(Z,(1 -7)Qo + TAg) 

— a tas ü asr 
RE X. 

dm(X,a,) def s [do( Z ,a, ) 

— s - a, | = PSP a, -a ]|x} 


SA=R XWR a = (9,g) 的 可 行 范围 ,其 中 W 是 排除 g, 的 Hilder 连续 
类 函数 ;进一步 细节 见 Ai 和 Chen(2003)。 对 于 任何 a, a, 8 A, RDE 


(Z, g) d £ 网 £“ D 
PE a 0] = PEM [ai a] + PE 


为 了 研究 & KAF a 的 速率 ,必须 定义 一 个 测度 (metric) ,一 般 使 用 的 包括 
sup #l L, 测度 。Ai 和 Chen(2003 ) 定义 了 一 个 以 下 的 弱 测 度 |+] 。: 


la -ole = JE EE a, - a 119] 


并 且 工 测度 是 (在 |:l. PÆ mX, -)H pZ, )) 


[ a, - a] 


ERSTE pf USA -a117 } 


可 以 证 明 对 所 有 ae4, || a-a |. < || a-a || >° 
当 未 知 函 数 g 依赖 于 内 生变 量 了 时 ,在 平常 的 乙 测 度 下 我 们 有 缓慢 的 收敛 
速度 ,但 是 在 上 "|| ,下 有 和 较 快 的 收敛 速度 。Ai 和 Chen(2003 ) 证 明 对 半 参 数 估计 


量 0, 的 Vn 正 态 性 , 它 满足 在 弱 测 度 外 .| 。 下 有 一 个 较 快 的 收敛 速度 。 
定义 
d A; 0 d (X, o) d X, 0 
Uma - œ] = — aaa - Qo] mw = yd 
对 于 9,( 属 于 909) 的 每 个 分 量 ,j=1,…,d, 今 w，”e W 表 示 下 面 的 最 优化 问题 
的 解 : 
dm(X,a,) dm(X,a,) toa 
S a r a ai /og (| (16.21) 
定义 w”= (wi ,… ,ws ) ,可 得 
dm(X,ao m 
( Pry ] [° (Xa) 


T petia a 
dg dg ii aE. 


[ww 1) 


6(dm(X,a,) dm(X¥,o,) 
ss s ss 
E 


Ai 和 Chen(2003 ) 证 明了 下 面 的 结论 。 


[`] 
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定理 16.1 在 Ai 和 Chen(2003) 给 出 的 正则 性 条 件 下 ,有 
Vn(9, - 0.) —N(0,V,) 依 分 布 收敛 
其 中 V,=|E[D(X)D (X)'/o°(X)]! ~s 
Ai 和 Chen(2003) 也 证 明 对 0, 的 任意 Vn 一 致 半 参 数 估计 量 的 渐 近 方差 ,In 
等 于 半 参 数 有 效 的 下 边界 。 


16.3.3 在 非 参数 部 分 具有 内 生 回归 元 的 部 分 线性 模型 


对 于 具有 内 生 非 参数 成 分 的 部 分 线性 模型 ,我 们 有 
p(Zi,a) =Y,,-X 0-g(Y,), ELp(Z,,ao) IX,X] =0 (16. 22) 
其 中 a = (9,g) ,8 是 一 个 标量 , 且 2=(Y,Y X) 'X=(X',X )'. gC) WK 
数 形式 是 未 知 的 , 且 Ai 和 Chen(2003) 建 议 使 用 一 个 样 条 一 小 波 过滤 基 去 逼近 
g(Y,), $ q(:) = (qi(*),…,g,(*))' 表 示 前 4 个 基础 函数 ,那么 ,我 们 可 
以 使 用 q: ( Y,) '8 EIE gY) IEF p EÈ L, x1 维 的 。 由 式 (16.20) 可 知 ,(9， 
B) 最 小 化 下 面 的 目标 函数 : 
PPUP) Pp, 
IEP p, 是 一 个 nx1l 向 量 ,其 第 i 个 元 素 是 (a = (0,z)) 
Pios = Yu -X 0 - gq"(Y,)'B (16.23) 
H P E nxK, W, B iE PCX)’ = (pra (X,) ,Pr (X,)') o 
容易 证 明 ,我 们 也 可 以 把 (6,B) 理 解 为 下 面 的 最 小 化 问题 的 解 : 
[3 = arg min T Ana (16.24) 


(0.B) e 0xRin 71 
其 中 
PM -RA -e ire) (16.25) 
EE pioa pZ, 0," (Yx) 'B) =Yu -X10 -q (Yu) 'B X P™ (X: ) HEIT 
回归 所 得 到 的 拟 合 值 。 
注意 式 (16. 23) (或 者 等 价 地 式 (16.24) ) 导致 8 和 局 的 一 个 闭 式 解 ,因为 p 
对 于 9 是 线性 的 , 且 & A g 的 过 滤 估 计量 对 于 B 是 线性 的 (因为 我 们 使 用 的 是 
线性 过 滤 ) 。 事 实 上 ,具有 一 个 相同 权重 函数 的 半 参 数 估 计 过 程 是 简单 地 对 Yy, 
=X'0, +q'"(Y,)'B +u, 应 用 二 阶段 最 小 二 乘法 估计 ,其 中 P ( X.) 是 作为 
q" YD WTR. 
为 了 推出 9, 的 渐 近 分 布 ,注意 对 于 具有 相同 权重 的 部 分 线性 模型 ( 即 
m(X,a) =X/0+E[g(Y,) | X]) , 式 (16.21) 成 为 
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min E| (X,, — [w (Y3) ])' (X; - [u,(Y,)]) 1 (16. 26) 


于 是 ,我 们 得 到 w” =E[w(Y,) | X] 。 
对 具有 内 生 非 参数 成 分 的 部 分 线性 模型 应 用 定理 16. 1 得 到 下 面 的 推论 。 
推论 16.1 S wH FRH 
k oe a a |X]]?’}, j=1,=,d 
HRE Elg (Y) | X] RE X, 的 线性 区 域 D, 那 么 
Vn(9, - 0) 一 N(0,V,) 依 分 布 收敛 
其 中 V, =|E[D(X)D (X)'/o'(X)]] `', B. D(X) =X; -Elw’ (Y,)|X]。 
Ai 和 Chen (2003) HHE (y) =q'*(y,) '8 R: g(y,) 0 — 4 i, 
其 收敛 速度 小 于 O, (n), BI (y) -zg(x,) =0, 07"). 
目前 为 止 ,我 们 关注 Y, 是 内 生 的 。 然 而 ,如 果 Y, = X, 是 外 生 的 , 且 假 定 
var( Y, - X, 0 -g(X,) | X) =o*( 即 条 件 同方 差 误 差 ) ,那么 上 面 的 结论 变 为 
D(x) = min E| [X, - E(g(X,) |X)]'[X, - E(g(X,) | X) ] 
= min E|[X, - g(X,)]'[X, - g(X,)]| 
= E|[X, - E(X,|x,)]'[X, - E(X,|x,)]! 
其 中 第 二 个 等 式 来 自 E(g(X,) | X. ,X,) =g(X,) 的 事实 , 且 最 后 一 个 等 式 来 自 定 
理 2.1, 即 E(X,|X,) 是 作为 X, 的 函数 在 均 方 误差 意义 上 的 X, 的 最 优 预 测 。 于 
EE Y, 为 外 生 的 情形 下 ,可 得 Y=e3? |E[DD'] |"! ,D =X,-E(X,|X,), 这 是 在 
第 7 章 讨 论 的 Robinson(1988 ) 的 结论 。 


517 16.4 公式 (16.16) 的 证 明 


接 下 来 我 们 使 用 小 | 表示 欧 几 里 得 范 数 。 我 们 观察 到 
B(z) = [ +} WX'K,..] > W,V.K,.., 
= [D WX'K,..] 5 W,(X'8(Z,) + u,)K,,,.. 
= 5) WX'K.,.] x È o XB) + X'(0(Z,) - B(z)) +u) Kpa, 
=B) +E WAK, aa] x D WXC) - B(z)) +u,)K,,. 
= p(:) + LD, (2) ] {A,n (z) + 4 | 


”也 就 是 说 ,对 所 有 9e R“,E|[X/!9-go(Y,)]*| >0。 
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ir ú s ta m & B kz m 


其 中 
D,(z) = n`' Š$, WX Ks 


A,..(z) =m > WX'(B(Z,) -Blz))K,,. 
A (4) = n` e) W;u;K, z, 

下 面 的 (iD 一 (ii) 意 味 着 式 (16. 16 ) : 

(i) D,(z) =n" 了 8K aq. >M, 

(ü) An(z)= Y MB2B,(z) + o, ( > hi) 


(iii) nhh, An (a) ,N(0,V,) 
接 下 来 我 们 证 明 这 些 结论 。 518 


(i) 的 证 明 : 令 | Al = > h, ,可 得 
E(D,(z)) = E[ W, W’, K, aqa] 


á Ja Ka — z)f( x, ,w, ,21) dx, dz, du, 
= [ea KOA „w, ,2 + hv) dvdx, dw, 
= [jo f(x, „w, ,2) dx du, ] [|K(v) do +O(|h|2)] 


= fT [ea fC sw, |z, =2) dxdw, ] [1 + 0( |A|2)] 
= f,(z)E[w,x' |z =z] +o(1) = M, +o(1) 


同样 ,可 以 容易 证 明 
var( D,(z)) = O( (nhh) ') = oll) 
因此 ,已 经 证 明了 
D,(z) =M, +o,(1) (16.27) 
口 
(ii) 的 证 明 : 519 


E[A,.(z)] = ELWX'(B(Z;) - B(z))K,.,.,] 


= Z (B(z,) - B(z) )K, f(x, , „z, )dx dw dz, 
= fox’ (Blz + hv) - B(z))f(x,,u,,z + hv)K(v)dx,dw,dv 
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= * a = £ E i Bs = 


= Ja | Y AA, + (1⁄2) °; Wp, (z) | 


x [A ,WIZ) + DA „w, ,2)h,v, | K(v)dxidwidv + o| 3 h? ) 


=; Ko 上 hoi, [8,(z)f. (x, „w, ,2) /f(x ,to, |z, =z) 
+ (1/2)f.(2)B, (z) f(x w, |z, = z)dx ho, + ol Sh ) 


= M, Y MB, (2) +0| >u) 
其 中 M, 和 B,(:) 在 式 (16. 16) 中 被 定义 。 
类 似 地 ,可 以 证 明 
var(A1,(z)) = o| > (nhi-h.) -+ 5a) 
因此 , | 
[A. (2) = È hB, (2) ) = o, ( Yu + (ni ja) 2 ) (16.28) 
口 
(iü) 的 证 明 : VnH,4,,(z) 具 有 零 均值 且 它 的 方差 为 (H, =h…h,) 


520 (aH) "| S ELW wuR:,.]} 
fai 


Hr flu, Ži ) os (w, Ži )w,x', Kh,s dw, dz, 


| fwrw, 'a? (w, ,2 )f(w, z )du, | [Jecodo] + o [ 5 a, ) 
= wk'f.(z)E[ W,W'o.(W,,Z,) |Z, = z] +0(1) = V, + (1) 
其 中 x” = [E dws 
直接 可 以 验证 Liapunov 中 心 极 限定 理 的 条 件 成 立 。 于 是 


JaAn (2) Š N(0 ,V,) (16. 29) 
口 
结合 式 (16.27) (16.28) 和 (16. 29 ) ,我 们 证 明了 


VaT, (ÊG) - (2) - X KB, ) 
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= [D.(z)]” [nl, | A..(2) - M, Sh?B,(z) +A,.(2) | 


[M, +o,(1)] "| /RHA,.(z) + o, (1) | = M-'N(0,V,) 
N(0,M-'V.M-') 


16.5 3 KH 


习题 16.1 假定 在 式 (16.1) 中 90(2,) =Z; (q4=1), H X, =Y, (p=1), B 
定数 据 是 严格 平稳 的 ,在 这 些 条 件 下 证 明 E(Y,_,2,.,) =0。 

习题 16.2 (〈i) 证 明 式 (16.6) ,(ii) 证 明 式 (16.9) 。 

习题 16.3 ”对 于 16. 3. 2 节 中 定义 的 上 小 | 。 和 省 "中;, 证 明 对 所 有 acA, 


| œ -a |. < || œ -æ || 20 


413 


521 


522 


414 


第 17 章 ， 非 参数 回归 
模型 的 内 生性 


两 类 一 般 的 计量 经 济 学 模型 是 单方 程 和 多 方程 模 
型 。 当 在 一 个 方程 中 作为 因 变 量 出 现 的 变量 也 在 其 他 
方程 中 作为 解释 变量 出 现时 ,这 一 系列 方程 在 本 质 上 被 
称 为 “ 联 立 "的 。 在 这 一 章 我 们 考虑 在 非 参数 背景 下 为 
联 立方 程 建 模 的 各 种 方法 。 


17.1 一 个 非 参 数 模型 


我 们 考虑 下 面 的 非 参 数 回 归 模 型 ， 
Y, = g(X,) +e, i=1,.,n (17.1) 
其 中 g(…) 是 未 知 形式 的 一 个 函数 。 我 们 的 目的 是 估 
计 g(')。 然 而 ,不 像 在 第 2 章 中 给 出 的 回归 模型 ,这 
里 的 误差 项 se; 现在 被 认为 与 解释 变量 X, 相关 ,使 得 
E(e;|X;) 关 0。 所 以 ,条件 均 值 与 关注 的 目标 不 一 致 ， 
即 E(Y.|X,) 关 g(X,)。 正 如 Hall 和 Horowitz( 2003 ) 所 
解释 的 ,如 果 有 男 一 个 变量 同时 对 ;和 YY 引起 变化 却 
不 包含 在 模型 中 ,这 种 情况 就 有 可 能 出 现 。 比 如 ,假定 
7 表示 个 人 的 每 小 时 工资 , 世 包括 该 个 人 的 教育 水 平 
等 变量 。 误 差 项 e, 包括 没 观察 到 的 个 人 特征 ,比如 “能 
力 ”。 高 能 力 的 个 体 很 可 能 会 选择 较 高 的 教育 水 平 , 因 
此 ,能 力 和 教育 水 平 是 相关 的 , 即 误差 项 =, 至 少 与 X, 的 
某 些 部 分 是 相关 的 。 在 这 种 情况 下 ,直接 应 用 第 2 章 中 
所 给 出 的 估计 量 将 会 产生 与 所 要 目标 不 一 致 的 估计 。 
就 像 在 线性 参数 回归 模型 中 的 情形 , 当 存 在 内 生性 
的 回归 元 时 ,我 们 需要 假定 存在 某 个 工具 变量 , 称 为 Z, 
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ba š 从 š a N še 次 站 


使 得 
E(e,| Z) = O (17.2) 
这 有 时 候 被 称 为 "工具 外 生性 ”, 然 而 我 们 也 需要 假定 Z; 和 之 间 有 很 强 
的 关系 ,这 有 时 候 被 称 为 “工具 相关 性 ”。 给 定 Z, 的 存在 和 一 组 规则 条 件 ,就 有 
可 能 获得 g(: ) 的 一 致 估计 。 但 是 ,估计 g(:) 的 问题 非常 复杂 ,因为 从 约 简 式 
E(Y,|Z,) 到 结构 式 g(X,) 的 映射 证 明 是 不 连续 的 ,使 得 构造 一 个 一 致 估计 量 很 
困难 。 目 前 ,在 式 (17.2) 成 立 的 假定 下 ,我 们 将 延缓 估计 式 (17. 1) 的 讨论 ,并 
且 我 们 应 该 首先 考虑 一 个 简单 的 三 角 半 参数 联 立方 程 模型 。 


17.2 一 个 三 角 联 立方 程 模型 


Newey 等 (1999 ) 考虑 了 如 下 三 角 非 参数 联 立 方程 模型 ; 
Y; = g,(X,,Z,,) + e, C17.3) 
X, = || (Z) +u, = E(X,! Z,) + u, (17.4) 
其 中 Y, 是 一 个 标量 X, A u, 是 d. 维 的 ,2 是 d, 维 的 ,并 且 是 Z, = (Zi, Zu) B! 
一 部 分 , 它 是 9 维 向 量 。Z, 被 假定 为 外 生 的 ,满足 E(u|12Z,) =O H. E(s,|u,,Z,) 
=E(ei|u)。 也 就 是 说 , 式 (17.4) 是 约 简 式 方程 。g,(:) 和 [| (…) 的 函数 形 
式 没有 设 定 。 我 们 的 主要 兴趣 在 于 一 致 的 g,(:)。 
我 们 将 令 g,(u,) =E(e,|u)。 注 意 式 (17.4) 意 味 着 E(， |X,,Z,) = 
E( + |u,2,) ,因为 X, 是 (2,,u,) 的 一 个 确定 性 函数 ,这 与 式 (17.3) 共 同 导致 
ECY, | EZ g. (X nZ) Ela l X.,Z.) 
= g,(X.,Z,,) + E(e, |! u,) 
= g, (X,,Z,i) + g,(u,) = g(W,) (17.5) 
其 中 W, = (XI ,Z/,u/)', W7. 5) 显示 ECY, | X,,Z,) E: — 4 T Jl B E a 
型 ,我 们 在 第 9 章 中 讨论 过 ,不 同 之 处 是 这 里 u, 是 不 可 观测 的 。 但 是 通过 非 参 
数 核 函数 或 序列 方法 ,从 式 (17.4) 可 以 得 到 的 一 致 估计 。 给 定 序列 方法 施 
加 给 定 结构 更 加 方便 , Newey 等 (1999 ) 建议 用 序列 方法 从 式 (17.5) 中 估计 出 
g(t) HP u, MAI (17. 4) Piit o 
Newey 等 (1999 ) 证 明 , 如 果 (x,z) 与 4 之 间 没 有 函数 联系 ,那么 ,g(x,z) 
则 能 被 识别 为 可 加 和 常数。 这 跟 在 第 9 章 中 讨论 的 识别 条 件 是 相似 的 。 这 就 能 
够 满足 许多 应 用 ,比如 , 当 兴 趣 在 于 由 x 和 z 的 变化 而 导致 的 y 的 变化 时 。 但 
是 在 其 他 情况 下 ,比如 当 要 求 预测 需求 数量 时 ,知道 g, (x,z, ) 的 水 平 是 很 理想 
的 ,如 果 也 假定 天 (ese) =0, 使 得 E(Y) =E[Lg,(X,Z,)], 它 就 可 以 被 识别 出 来 。 
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x = x 3 高 z w s. a 


更 正式 地 ,Newey 等 (1999) 证 明了 如 下 识别 条 件 : 
引 理 17.1 如 果 g,(')、g,(') 和 了 是 可 微 的 ,(z,,u,) 的 支撑 集 的 边界 有 
零 概率 ,并 且 ,以 概率 1, Əll(z,)/Əz, 的 秩 是 d,, 则 g(x,z) 是 可 识别 的 。 
Newey 等 (1999 ) 为 估计 g,(:) 提 出 了 一 个 两 阶段 估计 方法 。 在 第 一 阶段 ， 
& (z) = (ni(z) ,…,ru(z) )' 为 一 个 通 近 (基础 ) 函数 的 向 量 ,并 且 令 IC) 为 
X, 对 r = r (Z,) 回归 的 预测 值 , 即 
Iz) = r'(z)'%,ç = (R'R) 'R'(X,,--,X.)',R = (r, r.) (17.6) 
EBMER, G p“ lw) = (pix(w),…,prx(w))' 为 w=(x',z/,u') 的 一 个 各 
近 函 数 向 量 , 其 具有 一 个 可 加 结构 ,使 得 每 个 pu (w) 不 是 依赖 于 (x,z, ) 就 是 依 
赖 于 xu, 但 不 是 两 者 都 依赖 的 。 也 就 是 说 ,逼近 基本 函数 与 式 (17.5) 具 有 同样 
的 可 加 结构 , 即 在 基础 函数 中 (x,z ) 和 之 间 没 有 交互 项 。 令 站 = X, - 
ICZ.) , W, = (XZ il) 上 且 令 1(4) 表 示 事 件 4 的 示 性 函数 ,我 们 引入 一 个 以 
下 形式 的 修剪 函数 
y(w) = IRO < u, < b,) (17.7) 
其 中 a, AI b, EARKI, B. w 是 w 0028; 个 分 量 。 对 修剪 函数 的 使 用 仅仅 是 
为 了 简化 渐 近 理论 。 第 二 阶段 包括 Y, 对 P=p*(W,) 作 回归 ,此 处 ,由 于 修 前 数 
据 的 限制 可 得 
&(w) = p'(w)'B 
B= (P'È) P y 
P= (TP ,tb,) 
y= (Y; = fN (17.8) 
Kh +, =r W), W, = (Xi, Zi, ù) 
通过 把 依赖 于 (x,z ) 的 项 和 依赖 于 u 的 项 归并 起 来 ,估计 量 çO) 可 以 被 
用 于 构造 g1(x,z,) 和 g,(u) 的 估计 。 如 果 Pk(z) =1, 那 么 ,因为 接 下 来 的 K 


项 p(w) KHF (x, ) ,剩余 的 项 仅仅 依赖 于 uw。 于 是 ,g,(*) 和 g,(:) 的 估计 
量 可 被 给 出 为 


天 +1 


Ë | (x,z,) = é, + > Bip,(x,2) 


Ë,(z,z,) = ë, + š Bp, (u) (17.9) 
Hp ë, +ë, =B,, 且 所 有 的 系数 除了 常数 项 è, 和 ¿, 外 都 是 唯一 被 定义 的 。 如 果 
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对 估计 边际 效应 感 兴趣 的 话 , 那 么 常数 项 就 是 不 重要 的 。 我 们 也 可 以 估计 常数 
项 ,但 是 因为 修剪 函数 已 经 被 使 用 ,我 们 不 能 使 用 无 (se) =0 去 识别 它们 ,因为 当 
e 被 约束 在 修剪 集 内 时 , 它 将 不 再 具有 零 均 值 。 然 而 ,我们 可 以 引入 其 他 的 约束 
去 帮助 我 们 识别 常数 项 。 比 如 说 ,约束 条 件 g,(0) =0 可 以 帮助 识别 常数 ,因为 


E(Y|x,z,u=0) =g(xz,z)+g(0) =&8(x,z)。 这 相当 于 6 =B, - ë, H é, = 


BP(0) 。 

下 面 的 假定 都 被 Newey 等 (1999 ) 用 于 推导 &(w) 的 渐 近 分 布 。 

假定 17.1 (z) 是 % 阶 连续 可 微 的 , 且 g(x,z ) AE Lipschitz H. s KiE t a 
微 的 。 

假定 17.2 对 于 和 宕 级 数 ,((K + KL)(L/n)'”+L""') 一 0; 对 于 样 条 ， 
( (K? + KL'? ) (L/n)'? +L™"™)—0。 

Newey 等 (1999) 证 明了 下 面 的 结论 。 

定理 17.1 在 假定 17.1 和 17.2 以 及 某 些 可 加 正则 性 条 件 下 ,为 样 条 设置 
q =1/2 且 为 割 级 数 设置 9 =1, 那 么 

(i) frol) -audi dite) = 0,((K/n) + K>“ + (L/n) +L™") 

(ü) sup, |é(w) ~ gw)| = 0,(K*[(K/n)'? + K+ (L/n)'? + 18 ]) 
其 中 F(:) R w RERA PR 2 , 

收 敏 速度 是 这 两 项 的 和 , 且 在 第 一 阶段 估计 中 依赖 于 序列 数目 工 ,在 第 二 阶 
段 估 计 中 依赖 于 天 。 同 时 ,(ii) 是 由 定理 15.1 而 来 的 ,其 中 对 寡 级 数 ¿£ (K) = 
K, 目 对 样 条 io(K) =K , 

为 了 计算 &(w) =p" (w)'h 的 渐 近 方差 ,可 以 应 用 参数 二 阶段 估计 量 的 公 
式 (如 Newey(1994a))。 令 四 表示 Kronecker 乘积 且 定 义 Q = P'P/n,S Q. 一 


> +pp.[Y, - (W) ]1/n,Q, = La, @ (RR/n),S = 3 (ù ù, ') @ (rr, ')/n, H. 


f = X +[Əg(W,)/əu,]' @ pr /n,ë(u) 的 方差 估计 被 给 出 为 
Piw) = p'(w)'Q"' È + SGR ] Ôp" (w) (17. 10) 
因为 准确 的 偏 误 首 项 是 很 难得 到 的 ,Newey 等 (1999 ) 建 议 低 度 平 滑 这 些 数 
据 ,这 导致 偏 误 平方 项 比方 差 项 有 更 小 的 阶 , 使 得 非 参数 序列 估计 值 是 恰当 地 
处 于 中 心 的 。 特 别 是 ,他们 假定 当 n>a 时 ， 
[mK 0, Jar 0 (17.11) 
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N # š S N D š@ š ws 


等 式 (17. 11) 保证 了 序列 估计 偏 误 平方 项 是 小 于 方差 项 的 。 为 了 使 得 估计 
方差 收敛 于 零 ,Newey 4% (1999) 假定 
(KL + KL + KD + K'IS)/n — 0,82 38 
(KL + KD + RD + KL )/n—0, 样 条 (17. 12) 
Newey 等 (1999) 证 明了 下 面 的 渐 近 正 态 结果 。 
定理 17.2 在 低 度 平滑 条 件 (17. 11) 和 (17. 12 ) 下 ,在 某 些 关于 gC), 
H(:) 以 及 E(w | ,2Z;) 的 平滑 性 和 和 矩 条 件 下 (w =, 或 u,) ,那么 
Vn (6) 20806) - g(w)) S N(0,1) 
注意 可 以 证 明 /max[|K,L]| V(w) =0,(1)。 因 此 , 式 (17.2) 意 味 着 ((&E(w) 
-g(w))) =0, (VnZA/max|K,L] ) ç 
另外 ,可 以 使 用 自 举 法 逼近 &(w) 的 有 限 样本 分 布 。 事 实 上 , Newey 等 
(1999) 考 虑 了 线性 函数 ¿( ) 的 更 一 般 的 情形 , 它 是 B 的 线性 函数 (因为 6 关于 
êC ) 是 线性 的 ) ,比如 ,6 =4B, 其 中 4 是 一 个 mx 天 矩阵 (m 是 一 个 有 限 正常 
数 ) 。6 的 渐 近 分 布 为 
Jat- cê -6) -NO ) (17.13) 
eh V, =AQ [Y+ RQ. y OT A'J OA, B V, PRA WJ EBE , BRT A, EEM 
的 式 (17. 10) 中 被 定义 。 这 个 估计 量 和 参数 二 阶段 回归 是 类 似 的 。 它 等 于 
AQ QA ,一 个 异 方差 一 致 估计 量 , 加 上 一 个 额外 的 非 负 确 定性 项 ,此 项 说 明 
了 立 的 出 现 。9 收敛 于 9 的 速率 依赖 于 V, 趋 于 无 穷 的 速率 。 当 4 =p" (w), R 
(17. 13) 推 出 了 定理 17.2 。 


17.3 Newey-Powell 的 基于 序列 估计 量 


Newey 和 Powell( 2003) 考虑 了 一 个 更 一 般 的 联 立方 程 模型 ， 
Y, = g(X,,Z,,) +e,, E(e,l Z) =0, Z, = (Z,,Z,) (17.14) 
其 中 也 为 一 个 标量 , 且 成 、.Z 和 2 的 维度 分 别 为 & .d, 和 d,。 注 意 如 果 不 进 一 
HRE Ele, |Z, u) =E(e,|u,) ,我 们 不 能 由 式 (17. 14) 得 到 类 似 式 (17. 15) 的 三 
角 方 程 组 。 这 会 使 得 g,(…) 的 一 致 估计 更 加 困难 。 
式 (17. 14) 的 条 件 期 望 得 出 了 下 面 的 积分 公式 ; 


H(z) = E(Y,! Z, = z) = E[z(X,,Z,,) | Z, = z] = ea.) F(ax| z) 


(17.15) 
其 中 下 表示 给 定 z 时 x 的 条 件 累积 分 布 函 数 。g(:) 的 识别 依赖 于 积分 等 式 
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zs R gë x by 


(17.15) 唯 一 解 的 存在 。 令 A P RAR A F 的 非 参 数 估计 量 ,我 们 需要 基于 
下 式 得 到 &g(. ) 的 估计 量 : 


H) = Je) F(x À (17.16) 


S ORRERI. 16) 48209 gC) HAR E H #I F th eOk E 
续 性 说 明 约 简 式 估计 中 的 一 个 小 的 变动 将 导致 &(' ) 中 大 的 变动 。 于 是 ,与 传 
统 的 估计 量 不 同 ,&(: ) 的 一 致 性 不 能 由 A F 的 一 致 性 推出 。 这 就 是 所 谓 的 
不 适 定 道 ( 训 -posed inverse) 问 题 。 在 关于 积分 等 式 的 文献 中 ,已 经 提出 了 许多 
方法 处 理 非 连续 问题 , 且 它 们 经 常 被 称 为 “正则 化 方法 "。Newey 和 Powell 
(2003) 引 入 限制 条 件 ,g('…) 属于 一 个 紧 集 ,其 中 紧 性 是 在 Sobolev 范 数 下 定义 
的 ( 见 附录 A 的 A.31 关于 其 中 范 数 的 定义 ) 。 

“2 u=(x,z) R + |p (w), p(w), =} 为 一 个 基础 函数 序列 , Newey 和 
Powell( 2003 ) 假定 结构 函数 g (o ) 可 以 利用 以 下 形式 的 某 些 序列 基础 函数 的 一 
个 线性 组 合 很 好 地 逼近 : 


J 
go(w) = g,(w) = > yp, (x) (17. 17) 


其 中 yy; 是 对 应 于 p. ( ) 的 系数 , 晶 pCO) ER j 4° E FE 00 E NI) AE Bl pa 32% ( 如 
多 元 或 者 三 角 函 数 ) ,其 性 质 为 当 J 增 大 时 ,在 均 方 误差 意义 上 g,(x) 可 以 任意 
好 地 通 近 g(x)。 将 式 (17.17) 代 入 式 (17. 14) 可 得 


Jj 
E(Y, 1 Z,) = E[g.(W,) | Z,)] = >` y;E[p (W,)] Z (17.18) 


公式 (17. 18) ÆN AF Y, Xt Elp (W) |2;] 的 最 小 二 乘 回归 估计 
Iyl 。 然 而 ,这 些 条 件 期 望 函数 都 是 未 知 的 。Newey 和 Powell( 2003 ) 建议 使 
用 一 个 二 阶段 法 , 即 在 第 一 阶段 利用 一 个 非 参 数 序列 估计 量 估计 E[p,(W.) |2,]， 
tan ELp (W) 12Z;] 。 然 后 ,在 第 二 阶段 ,用 YY 对 EE[p,(W,) | Z, ] B9 I| J4 ## 
计 Yje 

然而 ,二 阶段 法 可 能 遭遇 先前 所 说 的 不 适 定 逆 问题 。 为 了 避免 这 个 问题 ， 
Newey 和 Powell(2003) 引 入 了 限制 条 件 ,go。(w) 属 于 在 Sobolev 范 数 下 的 紧 集 。 
这 个 假定 对 于 go。(w) 的 尾部 行为 施加 了 很 强 的 限制 。 为 了 放松 这 一 点 ,Newey 
和 Powell(2003 ) 假 定 gC) 函数 有 一 个 半 参 数 形式 g(w) =a (w)'B+go(w) ,其 
中 a(w) 和 8B 分 别 是 已 知 参数 和 未 知 参数 的 rx1 向 量 。 这 个 设 定 在 整个 参数 成 
分 a(w)'B 允许 无 界 的 w。 如 果 对 于 一 个 给 定 的 问题 ,w 是 有 界 的 ,那么 ,我 们 
可 以 丢掉 参数 部 分 并 得 到 一 个 完全 的 非 参 数 设 定 。 对 于 半 参 数 设 定 z(u) = 
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a (w)'8 +g (u) , 式 (17.16) 变 为 
a N J _ 
I1(z) = E(a(W)1z)'B+ > y/ÉE(p,( W) | z) (17.19) 


其 中 E(a(W) |z) 和 EE(p,(W) |z) 3] E(a(W)|:)#l E(p,( W) |z) 的 (一 阶 
段 ) 非 参数 序列 估计 量 。 在 第 二 阶段 ,我 们 可 以 通过 最 小 化 下 面 的 目标 函数 估 
计 未 知 的 B 和 7。 


n J 2 
Q(B,7) ë > [Y - ËCa(W.) 1 Z.) '8 - > vÊ) 1 2,) ] 


`. 
(17.20) 
一 个 非 参 数 二 阶段 最 小 二 乘 估计 量 可 以 在 满足 参数 限制 的 条 件 下 最 小 化 
式 (17. 20) ,得 到 
ñ(w) = a(w)'B + &(w), ñ (w) = 2 $p (e) 
其 中 
(B.y) = arg minQ(B,y) ,s.t.B'B < B,,y'A, < B, 
其 中 B, 和 B, 都 是 某 些 正 的 常数 ,y' 4 是 线性 逼近 函数 g, 的 Sobolev 范 数 的 平 
方 , 且 A, 是 一 个 用 包含 基础 函数 户 及 其 导数 的 积分 来 构造 的 已 知 矩 阵 。Newey 
和 Powell ( 2003 ) 建立 了 非 参 数 估计 量 &5E(w) 的 均匀 一 致 性 , 即 几 乎 确定 
sup, |&(w) -g(w) | =o(1) ,其 中 sup 是 在 一 个 紧 集 内 取 值 的 , 且 概 率 密度 函数 
f(w) 在 紧 集 内 存在 一 臻 上 界 和 下 界 ;参见 Newey 和 Powell( 2003 ) 关于 用 于 证 明 
&#(w) 对 于 g(w) 的 均匀 一 致 性 的 正则 性 条 件 的 详细 讨论 。 


17.4 Hall 和 Horowitz 的 基于 核 的 估计 


接 下 来 , 非 参 数 回 归 模 型 是 与 式 (17. 1) 一 样 的 , 即 
Y, = g(X,) +u, (17.21) 
其 中 为 了 表达 的 简洁 ,我 们 首先 考虑 是 一 个 标量 这 种 情况 。 因 为 
E(u;|X,) 关 0 ,我 们 需要 假定 存在 一 个 标量 工具 变量 Z, ,使 得 
Elu; | Z) =0 (17.22) 
H Z, #l X, 是 强 相关 的 。 然 而 ,未 知 函 数 eC) 的 估计 是 非 平 凡 的 ,这 正 是 我 们 
接 下 来 将 要 说 明 的 。 
令 有 和 .分 别 表示 XZ 和 (X,Z) 的 联合 密度 的 边际 密度 。 在 积分 平方 
靖 数 空间 定义 如 下 的 算 子 T: 
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(TY) (w) = f(s,w) w(x) da (17.23) 
其 中 
((z,e) = f(x2)f (wz) dz (17. 24) 
由 式 (17.23) 和 式 (17.24) ,可 以 证 明 (见习 题 17. 1) 
E|E(YI 2)f.(w,2)| = (Tg)(w) (17.25) 


如 果 我 们 假定 T 为 非 奇异 的 ( 即 逆 矩 阵 T ”存在 ) ,那么 ,在 式 (17. 25 ) 两 边 
同 乘 7” ,可 得 


g(x) = E|E(Y! Z)(T''/..)(x,Z)| (17.26) 
公式 (17. 26) 表 明 ,识别 g() 的 关系 是 一 个 属于 第 一 类 的 Fredholm 方程 : 
Tg = 由 (17. 27) 


其 中 了 是 一 个 线性 算 子 ,如果 0 是 7 的 特征 值 的 一 个 极限 点 ,将 会 导致 一 个 不 
适 定 逆 问 题 所 以 ,7” 不 是 一 个 有 界 的 连续 算 子 。Hall 和 Horowitz(2003 ) 建 议 
使 用 一 个 背 型 正则 性 (ridge-type regularization) 去 规避 7” 的 非 有 界 性 , 即 用 
(T+a,) ”取代 7 ,其 中 a, 是 一 个 正 脊 参数 , 当 noo 的 其 收 人 鱼 于 零 。 

我 们 现在 考虑 下 面 的 多 元 情形 ,其 模型 为 

=EL Zn + ú,, BGU, ZZ) = 0 (17.28) 

Hp X EAH, Z 是 外 生 的 。Hall 和 Horowitz( 2003) JE— p RE X A Z 具有 
相关 联 的 紧 支 撑 集 , 即 X Z, e [0,11] ' RZ. e [0,1]% 

令 (wu,t) 表 示 一 个 r 阶 的 有 界 核 函数 , 即 如 果 h 是 小 的 且 1 不 接近 于 0 或 
者 1, 那么 (wu,t) =h (aa)。 然 而 ,如 果 上 接近 于 1,k,(u,t) =h ''l(u/h), 


其 中 f iw =áyj = 0,1 (如 果 j =1.5, =1, 否 则 为 0), 且 如 果 4 接近 于 0,h(u,t) = 
1,( -wu/h)。 我 们 可 以 估计 (X,Z) 的 联合 密度 /为 


f(x,z) = 15 K, a (% = X; s2) K a (z a Zisi) K, , (z, w Zis) 
i=l 


530 


HP K, (ut) = |[[h k(u,,t) K (u, = [|h7ik(u,,t,) ,其 去 一 估计 531 


值 为 
f... (x, ,z) = yE Kt w: Xx)K, (a = Zisi) Kpa, (z, 7 Z,.,z, ) 
因此 ,可 得 


i, (21322) = ff sz) (22,2) dz 
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8 p m x m: z T = 


H. 
CEDO) Caz) = fi, (Ex) CE,z) dé 
Hp y 为 一 个 映射 民 2 到 实 线 (real line) ARR WA gC, ) 的 估计 量 为 


a l ` p+ f 
g(x;z,) = PaA T, f... (x,z) YK, (22 - Z, ,z; ) 


因为 g(: ) 的 一 致 估计 依赖 于 7 了 的 可 道 性 ,&(:) 的 收敛 速度 依赖 于 7 的 特 
征 值 收 敛 于 零 的 速率 。 令 w ,gp，，… 表 示 积 分 平方 函数 在 [0,1] 上 的 正 交 基 , 那 
A Ale) ,frw 和 g(*') 有 下 面 的 扩展 : 


(x,2) = Y A(x)b(z) 
(ws = 3 > d,$,(x)ó,(z) 


g(x) = 2 bb,(x) 
其 中 d, 和 6 分 别 是 f Me OR Y 8 nr 2 38. 

Aa 和 BB 为 满足 a>1 的 常数 。 其 中 B>1/2 且 BB-1/2<a<2B, 其 中 
lb lS Gj2, ° < CA, B. > |d|< Gj ,对 所 有 j>1 成 立 ,Hall 和 Horowitz 
(2003 ) 证 明了 下 面 的 一 致 收敛 速率 结果 : 

c. h fop Ecl - g(t) | dt = O(n- ) 

A r =2r/(2r +q) Hall #l Horowitz( 2003 ) 进 一 步 证 明 在 下 面 的 最 小 化 意义 

上 的 最 优 收敛 速率 为 n-"*"**"， 


liminf n™ PCP inf sup | Elg(x,2) - g(x,z,)}’dx > O 
n ê CeC J[0,1]% 


— o 


在 稍微 更 强 的 条 件 下 ,包括 要 求 a 以 比 渐 近 最 优 速率 更 快 的 速度 收敛 于 
零 ,同时 将 平滑 参数 六 限制 在 一 个 稍微 更 窗 的 范围 内 , Horowitz ( 2005 ) 建 立 了 
8(x*,z21) 的 逐 点 渐 近 正 态 性 结果 。 


17.5 Darolles,Florens 和 Renault 的 估计 量 
Darolles , Florens 和 Renault( 2002 ) 考虑 了 相同 的 非 参 数 回归 模型 , 即 


Y = g(X) +u, E(ul Z) = 0 (17.29) 
其 中 Z 为 工具 变量 。 因 此 ,g(') 被 定义 为 函数 方程 的 解 
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E(Y-g(X)12)=0 (17. 30) 
为 了 估计 未 知 函数 g- ) ,Darolles 等 (2002) 开 始 注意 g(:) 是 下 面 的 方程 
的 解 : 


g(-) = argminE[| E(Y|;) - [$(x)F(dx|:) |°] 


接 下 来 ,用 7Tr(g) =E(g(xz)|z)# T; (y) =E(yw(x)|1z) 定 义 两 个 线性 算 子 
T,(g)#l T; (ww)。 使 用 这 个 记号 ,g(:) 对 应 于 任何 函数 方程 的 解 
A(g F) = Tg) =r = Ü (17.31) 
其 中 mr(z) =E(Y|z)。 令 f(y,x,z) 为 (Y,X,Z) 的 概率 密度 函数 ,那么 式 
(17.31) 是 一 个 积分 的 Fredholm 类 型 IAR: 


f(°,z,z) AN Jes 
jG) oss a r (z) = O (17.32) 


E [ Ay: 8) 
其 中 (7) = ras 
为 了 识别 gC) ,Darolles 等 (2002) 引 入 条 件 几乎 确定 E(g(X) |Z) =0, 这 
意味 着 几乎 确定 g(X) =0。 在 这 个 条 件 下 ,5(') 是 可 以 识别 的 。 令 和 = 1 为 


L(z) 的 正 交 序列 , 即 |+ Cw) $i(w) dF(w) =8. X j>, T, Ch) = A 





T; (W) =Ab sb =1 =1 且 |$(x)$i(x)dF(z,x) = Na 可 以 证 明 (见习 
题 17.2) 

Te[e(X)](z) = E[g(X)1 z] > à; < g(a), (x) > #,(z) (17.33) 
那么 ， 


z(a) = > < r,,#, > $,(z) 
其 不 适 定 逆 问 题 对 应 于 当 j 一 % 时 A 一 0。 小 的 估计 误差 将 会 导致 估计 
g8(') 函 数 的 极 大 改变 。Darolles 等 (2002 ) 建议 使 用 一 个 “切断 估计 量 ”( cutoff 
estimator) ,其 只 使 用 由 和 内 ,有 À; >a, , FP a, >0 是 一 个 正 数 序列 , 4 j— = 
时 ,a 一 0, 因 此 
(2) = (ad + T; T; ) rÈ, 
Hh ri =T; reo H F, 是 核 平 滑 经 验 累积 分 布 函 数 。Darolles 等 提供 了 £, (w) 


到 g(w) 的 收敛 速率 和 #。(w) 的 一 个 渐 近 正 态 结果 。 
这 种 方法 已 经 被 Blundell, Chen 和 Kristensen ( 2003 ) 使 用 ,他 们 考虑 了 在 出 
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[2 Ld baa 起 iD Xx > 2 É: 


现 外 生 支 出 的 情形 下 半 参 数 恩格尔 曲线 的 估计 。 


17.6 > KRH 


习题 17.1 由 式 (17.23) 和 (17. 24) 推 导 式 (17. 25) 。 
习题 17.2 推导 式 (17. 33). 


6 18 ” 弦 依 赖 数据 


迄今 为 止 ,我 们 把 注意 力 限 制 在 独立 数据 上 。 在 这 
一 章 ,我 们 证 明 所 有 的 早期 研究 结果 都 可 以 扩展 到 平稳 
弱 依 赖 数据 体系 。 接 下 来 将 要 提 到 的 “ 弱 依 赖 "的 意思 
是 指 当 7 趋 于 无 穷 时 ,2Z, 和 2,,, 之 间 的 依赖 性 为 0。 此 
外 , 当 7 一 % 时 ,我 们 也 需要 强加 一 定 的 收敛 速率 。 于 
是 , 弱 依 赖 数据 排除 了 非 平稳 进程 的 可 能 性 (比如 单位 
根 ) ,或 者 过 程 拥有 所 谓 的 远 期 依赖 。 在 这 一 章 ,我 们 主 
要 关注 严格 平稳 弱 依 赖 数 据 。 在 18. 9 节 我 们 简要 地 讨 
论 关 于 非 平 稳 数 据 回 归 模 型 的 非 参数 估计 。 为 了 描述 
弱 依 赖 过 程 ,我 们 使 用 各 种 所 谓 的 混合 过 程 ,我 们 在 下 
面 给 出 定义 。 

QM "表示 由 12,1 ,产生 的 o 代数, 令 N 表示 整 
数 集 , 且 定义 


b, = 中 (T) = sup sup I P(A1B) - P(A) |! 
IEN 4eAME BEAML。 

a, = a(T) sup sup I P(A N B) - P(A)P(B) | 

teN Ae MZ, Be ML. 
B. = B(T) sup sup | E(A|\ B) - E(A) | 

teN AeMA, BEM” a 

:0v (A,B) 
, = p(r) su su a (18.1) 

Á i aik Ea AER y var(A)var( B) 





序列 12Z,| -。 可 以 说 是 由 混合 ,或 a Rr, sk 8 iE 
合 , 或 p 混合 ,如 果 当 7 一 %w ht, p, a, 8, Mp, 分 别 趋 于 
零 。 注 意 a- 混 合 也 可 以 称 为 “ 强 混合 ”。 

注意 对 于 独立 的 数据 ,对 7 三 1,4$, 、a,、B, 和 p, 都 是 
0。 混 合 过 程 可 以 被 看 作 是 渐 近 独立 过 程 。 

可 以 证 明 

a, S B, < ó$,.a, < p. < ç, (18.2) 
然而 ,一般 情 形 下 我 们 不 能 对 B, 和 p, 进行 排序 。 
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参见 Carrasco 和 Chen(2002 ) ,以 及 Chen ,Hansen #1 Scheinkman (2005 ) 关于 不 同 
的 混合 过 程 性 质 的 进一步 讨论 。 

Ibragimov 和 Linnik( 1971 ) 证 明 一 个 高 斯 自 回归 移动 平均 ARMA (p,q) 过程 
(p,geN,) 就 是 这 样 的 过 程 , 当 z— = 时 ,a, 一 0, 但 是 ,不 是 。 此 外 ,a, 一 0 以 
指数 的 速度 收敛 2 也 许 混合 过 程 最 方便 的 性 质 在 于 混合 过 程 的 可 测 函 数 本 身 
是 混合 性 质 的 ,给 定 函 数 仅 仅 依 赖 于 混合 过 程 的 一 个 有 限 的 滞后 期 数 。 然 而 ， 
当 依赖 于 潜在 过 程 的 整个 历史 时 ,Y, 的 可 测 函 数 可 能 不 是 一 个 混合 过 程 ,使 
Y, 本 身 是 混合 的 。 在 这 种 情况 下 ,混合 过 程 的 概念 被 McLeish ( 1975 ) 扩 展 为 
“混合 蒜 ”( mixingale) 过 程 。 关 于 混合 拷 的 细节 处 理 和 其 他 的 弱 依赖 过 程 ,我 们 
请 读者 参考 Gallant 和 White(1988 ) 以 及 Andrews(1988 ) 。 

在 一 篇 核 估计 的 重要 论文 中 ,Robinson(1983 ) 建 立 了 对 于 非 参数 密度 ,回归 
和 具有 强 混 合 (a 混合 ) 数 据 的 条 件 密 度 估 计量 的 一 致 性 和 渐 近 正 态 性 。 因 为 
其 他 的 三 个 混合 过 程 意味 着 a 混合 ,a 混合 过 程 因 此 是 在 上 述 提 及 的 弱 依 赖 过 
程 中 依赖 最 强 的 过 程 。 

在 这 一 章 我 们 把 注意 力 集中 于 平稳 的 p 混合 或 B 混合 过 程 ,因为 从 数学 上 来 
说 ,p 混合 和 B 混合 是 最 容易 处 理 的 。 比 如 说 ,一 个 标准 的 AR(1) 模 型 的 形式 为 
Y, =aY,_, +uw,, 其 中 ,是 一 个 具有 有 限 方差 o 的 白 噪声 误差 项 ,是 p 混合 ,给 定 
|a| <1, 因 为 当 7 一 o 时 ,p， =cov(Y,,, ,Y,)/ /var(Y,)var(Y,,,) = or 一 0。 Carrasco 
和 Chen(2002) 证 明 许多 已 知 的 非 线性 时 间 序 列 过 程 都 是 B 混合 (或 p 混合 ) 。 

我 们 将 提供 密度 和 回归 函数 的 核 估 计量 的 渐 近 正 态 性 和 逐 点 一 致 性 的 详 
细 证 明 。 我 们 还 要 讨论 许多 半 参 数 模 型 的 估计 以 及 对 于 弱 依 赖 数据 的 一 致 模 
型 设 定 检验 。 

这 一 章 的 主要 目的 是 说 明 在 前 面 的 章节 中 得 到 的 关于 独立 性 假定 的 结论 ， 
如 收敛 速率 和 渐 近 正 态 性 , 当 独 立 性 假定 被 放松 为 允许 弱 依 赖 时 ,都 不 会 改变 。 


18.1 关于 依赖 数据 的 密度 估计 


为 了 表达 的 简洁 ,我 们 只 考虑 xe RR" 是 向 量 一 值 连续 变量 这 种 情形 。 将 这 
一 结论 扩展 到 混合 离散 和 连续 变量 的 情形 是 相当 直接 的 ,正如 我 们 在 第 4 章 中 
所 做 的 那样 。 假 定 我 们 有 平稳 性 和 p EAW X, X, ,X,。 正 如 在 第 1 章 
那样 ,对 于 一 个 给 定 的 xe R ° 的 固定 值 ,我 们 估计 ,的 概率 密度 函数 f(x) 为 


Ña) = — Y KA, - x) 


© 对 于 非 高 斯 过 程 , Andrews(1984) 证 明了 一 个 简单 的 AR(1) 过 程 可 以 既 不 是 由 混合 也 不 是 


a 混合 。 
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à š%& K 8 ï 3 & EE X 


其 中 , K, (X, - x) = |] hk((X, - x,) /h,) 是 乘积 核 。 


1 FE WE #BuEB BRA 58 fk 0 80 da nj f(x) 的 均 方 误差 收敛 速率 与 我 们 在 
第 1 章 中 讨论 的 独立 数据 情形 是 一 样 的 。 
定理 18.1 假定 一 个 p 混合 过 程 满足 p(r) =0O(r- -439 ) , 某 些 (小 的 ) 


s >0( 这 意味 着 S plr) < =) ,在 定理 1.3 HAMRET) kC) 
的 平滑 和 矩 条 件 成 立 , 且 当 nm yo 时 ,用 -0(s=1 ,9) nhi h >o ,那么 
( IAI? = Yu) 
El[f(x) -f(a)]' 1 = O( h | + (nhh) 7!) 
EB: Kua = KOX, =a) = JPA ECO, ~“)/h,) ,那么 ,由 平稳 性 人 


定 , 可 得 
bias(f(x)) = E[f(x)] - f(x) = E(K, 1) -f(x) 


= fK, C, — x)f(x, )dx, 一 我 而 
" [Koy + hv) dv —- f(x) 


= (1/2)x; Y hêf (a) + o( FRI (18.3) 
注意 上 面 的 偏 误 计 算 和 独立 同 分 布 数据 的 情形 是 完全 相同 的 ,因为 平稳 性 
就 意味 着 相同 的 分 布 。 
接 下 来 ,我 们 计算 方差 项 ,给 出 为 : 


var(f (x)) == n var | Til 


. ai 5 var(K,..) + 25 Y eov(K,...K..)] (18.4) 


下 面 我 们 分 别 计算 var( K, n) 和 cov( K, ,Ks)。var( K, ) 的 计算 和 独立 
同 分 布 数据 的 情形 下 是 一 样 的 ,在 平稳 性 条 件 下 可 得 (用 也 =h eh, 表示 ) 
var(K,..) = E[Kss] - [ E(K,.,.) ]° 


= [KGx, = s) /(z,) dæ, = fK, Cx, = x)f(z,) dx, ] 
= H;' |K? (r) /(x + hv) dv - [ [KOA + ho) do]? 


= HA) KRC) do + 0 (H7 Y B: +1) (18.5) 


538 


427 


非 参数 计量 经 济 学 


y a e % w x x ië » 


根据 平稳 性 性 质 , 式 (18.5) ,并 假定 p 混合 ,可 得 
539 | cov(K, ,,,K,.,) | < p(s - t)var(K, n) 
= H-'p(s - dfx) | (v) ae + o(a; > M + 1) (18.6) 


使 用 六 pl* -六 = EE np = s D, il 
var(f(z)) = n° ] X var(K, u) +25 5 cov(K,.. Krn) | 


< n? {nvar( K, a) + 2nvar( K, ,, ) 2 } 


= O( (nhh) ') (18.7) 
其 中 ,最 后 一 个 等 式 利用 了 式 (18.5) 的 var(K, a) =0((heh,)™), UK 


> pG) < % 的 事实 。 
综合 式 (18.3) 和 式 (18.7) ,可 得 
< q 2 
MSE(f(x)) = 0( (F K) + (nh,=-h,) ') (18. 8) 


我 们 已 经 证 明 ,对 于 弱 依 赖 过程 , 核 密度 估计 量 f(x) 与 独立 同 分 布 情形 
下 的 均 方 误差 具有 同样 的 阶 数 。 事 实 上 ,我 们 将 要 证 明 f(x) 的 渐 近 分 布 也 是 
与 独立 同 分 布 情形 下 相同 的 ,特别 是 ,这 意味 着 偏 误 首 项 和 方差 首 项 与 独立 
同 分 布 背 景 下 是 一 样 的 。 
在 18. 10. 1 节 我 们 证 明 
var( (nj 及) f(x)) = kf(x) + o(1) (18.9) 


公式 (18.9) 表 明 对 于 p 混合 过 程 来 说 , 它 的 混合 系数 满足 X plr) <œ, 


f(x) 的 渐 近 方差 首 项 是 与 独立 同 分 布 数据 情形 下 相同 的 。 

540 给 定 f(x) 的 偏 误 首 项 和 方差 首 项 与 独立 同 分 布 数据 情形 下 是 相同 的 ,很 自 
然 地 ,我 们 期 望 逐 点 渐 近 正 态 性 结论 对 于 混合 数据 也 是 成 立 的 。 接 下 来 的 定理 
给 出 了 这 一 结论 。 

定理 18.2 在 与 定理 2.2 给 出 的 关于 f(:) 和 4k(:) 相 同 的 条 件 下 ,但 是 把 
独立 同 分 布 假定 用 具有 p(r) =0(7-"*”) 的 p 混合 或 具有 a(7) =0(r t9) 
的 a 混合 替代 ,并 且 也 假定 当 no Ht h, — 0(s = 1,…,qg) ,nh,…h, > 0, R. 
nhh, X hi 一 o ,然后 可 得 
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Jahrh, (fx) -Ka -5 M.G) ) SNO, KS (x)) 

fE p 混合 下 定理 18. 2 的 证 明 在 18. 10 节 给 出 。 在 a 混合 下 的 证 明 可 参见 
Robinson( 1983 ) 和 Masry(1996b ) 。 

定理 18. 2 说 明 对 于 弱 依 赖 过 程 fx) 的 (一 阶 ) 渐 近 分 布 是 与 独立 同 分 布 
数据 情形 下 相同 的 。 

我 们 也 可 以 考虑 在 m 个 不 同 点 求 值 以 估计 一 个 联合 概率 密度 函数 向 量 。 
Sx = ETT T T ,其 中 0 三 Ti < r w sss < P. 是 一 些 正 整数 。 定义 一 个 
m x1 向 量 函 数 f,(x) 为 

FE) Š Rin) K Ern) o A Ein)" 

定义 (x) 的 核 估计 为 

f(x) Z (frm) pz) ,fr )) 
那么 可 以 证 明 f,(x) 收 全 于 f(x)。 的 确 ,我 们 可 以 证 明 
VaB (f(x) -f(x) -EY fa O) NGO fx)) (18.10) 
其 中 /),(x) 是 一 个 mx1l 向 量 ,其 第 j 个 元 素 是 
Salars) = [Of(x) /0x] |... . 

我 们 观察 到 f(x ,, ) 对 于 不 同 的 了 是 渐 近 独立 的 。Robinson(1983 ) 提供 了 
一 个 式 (18. 10) 的 关于 a 混合 数据 的 证 明 。 

18.1.1 几乎 确定 一 致 收敛 速率 

正如 独立 同 分 布 数据 的 情形 ,对 于 弱 依 赖 数据 的 几乎 确定 一 致 收敛 速率 没 
有 改变 。 

定理 18.3 在 与 定理 1.4 给 出 的 关于 f(:) 和 上 (:) 的 相似 条 件 下 , 且 假 定 
数据 是 p 混合 的 ,p(r) = 0(7-"*”) ,或 者 a 混合 的 ,a(7) =0(7-"*”) ,那么 

1⁄2 
sup lAa) -fa |= O (lal + C =s. 
证 明 : 见 Masry (1996b) 。 口 


定理 18.3 告诉 我 们 f(x) 的 几乎 确定 一 致 速率 是 与 独立 同 分 布 数据 情形 下 
相同 的 ( 见 定理 1.4)。 


541 


429 


非 参 数 计量 经 济 学 
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18.2 依赖 数据 的 回归 模型 


18.2.1 拷 差 分 误差 情形 


考虑 下 列 形式 的 非 参 数 回归 模型 : 
Y. = z) * w, (18.11) 
其 中 ,正如 第 2 章 所 述 ,g(:*) 是 一 个 未 知 的 平滑 函数 , 且 我 们 假定 u, k: — 4 
差分 过 程 (因此 u, 是 序列 无 关 的 )。 假 定 1Y,,X,1 ,是 一 个 严格 平稳 的 B 混 合 
过 程 ,其 混合 系数 是 B,。 我 们 用 局 部 常数 核 方 法 估计 g(x) ,因此 


YK,(x—X,) 
bx) = nO (18, 2) 
f(x) 

我 们 将 假定 误差 项 u, 是 一 个 蒜 差 分 过 程 , 即 假定 E(u,1X,, MTI) = 0( XÍ 
所 有 T>1,M 包含 (了 _，, 蕊 _,) ) 。 蒜 差分 假定 意味 着 误差 是 序列 无 关 的 ， 
但 是 它 允 许 误 差 为 未 知 的 条 件 异 方差 形式 。 同 时 , 当 万 包含 也 的 滞后 值 时 ,如 
Y, Y, BREZ E(u,1X,) =0 意味 着 E(u,1Y,,，,…,Y,_,) =0, 这 说 明 uw, 可 能 

542 ”是 序列 无 关 的 。 因 此 ,关于 wu, 的 蒜 差 分 条 件 对 非 参数 时 间 序列 回归 模型 是 一 个 
合理 的 假定 。 

为 了 推导 &(x) 的 渐 近 分 布 ,就 像 我 们 在 处 理 独立 同 分 布 数 据 情形 的 那样 ， 
可 写 出 

lx) - g(x) = [8(x) - g(x)]f(x)/f(x) = rm(x) /f(x) 
其 中 
m(x) = [8(x) - g(x) ]f(x) = m(x) + ñ,(x) 


m (x) = n' > [g(x,) - g(z) ]K,.,. 


m (x) = n" Y wk, 
用 与 独立 同 分 布 数据 模型 的 情形 下 完全 一 样 的 证 明 , 我 们 可 以 证 明 (|| 
= > h) 
EL[m(x)] = X h;B,(z) + O( || h || °) (18.13) 


Hp B,(x) =(1⁄2)x<x,[f(x)g,(x) +2f (x)g,(x)]。 
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使 用 与 求 var(f(x) ) 时 一 样 的 计算 ,我 们 可 以 证 明 ( 见 习题 18. 2) 


var[mi(x)] = 0(| hl*(nH,)™) = o((nH.) ') (18.14) 
公式 (18. 13) 和 (18. 13 ) 意味 着 
m (z) = Y hB, (a) +o [! kit (nH,) 2 ) (18.15) 


假定 u, AMARENA, ,对 于 ts, RITA E(u,u,1X,,X,) =0, 因 此 ， 
由 与 独立 同 分 布 数据 情形 下 完全 相同 的 证 明 可 以 得 到 ( 见 第 2 章 ) 
E[(m,(z))*°] = n™ >` > Elwuu,K,(x—X,)K,(x—X,)] 
= n? E[wKi(x 一 X,)]( 因 为 E(wu,1X,,X,) = 0, 如 果 t Z s) 


= n”E[o°(X,)Ki(x - X,) ] 


= (nhih) {K'o (x)f(x) +o,(1)| (18.16) 
公式 (18. 16) 意 味 着 (H, =h,…h,) 
m,(z) = 0,((nH,) `°?) (18.17) 
由 定理 18.1 和 式 (18.17) 推 出 (假定 f(x) >0) 
B(x) - g(x) = ŽO 
f(x) 


O (l h1? + (nH,) `?) 
f(x) +o,(1) 
= 0,(| h1? + (nB,) 一 ) (18.18) 
进一步 我 们 可 以 建立 &5(x) 的 渐 近 分 布 。 
定理 18.4 假定 当 m 一 om BF ,h—0,nh'—+e nht —0 ,可 得 


VnH (BE(x) - g(z) - Y 2B,(z)) > N(0,x*o* (z) Zf(z)) 


我 们 可 以 使 用 和 定理 18.2 的 证 明 同 样 的 “小 方块 "(small block) 和 “大 方 
块 " 方 法 去 证 明定 理 18.4( 详 见 下 面 的 18.10 节 ); 因 此 ,我 们 省 咯 此 处 的 证 明 
过 程 。 

定理 18.4 说 明 g(x) 的 (一 阶 ) 渐 近 分 布 与 独立 同 分 布 数据 情形 下 是 一 
样 的 。 

由 式 (18. 16) 的 推导 ,我 们 可 以 看 出 团 差 分 误差 假定 使 得 渐 近 方差 的 计算 
与 独立 数据 情形 下 一 样 简单 。 定 理 18.4 在 没有 拷 差 分 假定 的 前 提 下 仍然 成 
立 ,给 定 误差 u, 是 一 个 混合 过 程 , 且 混 合 系 数 满足 一 个 衰变 率 ,正如 在 定理 
18.2 的 证 明 中 所 使 用 的 那样 。 
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pa ò g F: i = Fi # 


正如 独立 同 分 布 数 据 的 情形 ,我 们 也 可 以 用 最 小 二 乘 交 错 鉴 定 方法 选择 平 
滑 参 数 , 即 通过 选择 h, gaea sh, 最 小 化 下 式 : 


CV(h) = n” Y [Y, - &.(X,)] M(X,) 


Hp £..(X,) = > YK,(X, - X,)/ > K(X, - X,) 是 g(X,) 的 去 一 核 估 计量 ， 


FH M(: ) 是 一 个 紧 支 撑 的 非 负 加 权 函 数 。 在 数据 是 混合 过 程 , 其 混合 系数 以 
某 个 速率 衰变 为 零 的 假定 下 ,可 以 证 明 交 错 鉴 定 法 选择 平滑 参数 与 独立 数据 情 
形 有 同样 的 渐 近 表现 (比如 , 见 第 2 章 )。 这 并 不 是 令 人 惊讶 的 ,因为 我 们 已 经 
证 明 ,不 管 数 据 是 独立 的 还 是 弱 依赖 的 , 均 方 误差 估计 都 有 同样 的 首 项 展开 。 


18.2.2 自 相关 误差 情形 


Xiao,Linton,Carroll 和 Mammen (2003 ) 考 虚 了 以 下 形式 的 回归 模型 . 
F = (X) = Ln (18.19) 
其 中 X,e R * 是 严格 外 生 的 , 即 E(u,1X,,…,X,) =0 对 于 所 有 的 上 成 立 ,Xiao 等 
允许 为 序列 相关 的 ,我 们 写 为 


u, = & F (18.20) 


其 中 e, 服从 具有 零 均 值 和 有 限 方差 o, 的 独立 同 分 布 , 且 c, 是 未 知 系数 。 注 意 
Xiao 等 假定 X fll u, 是 正 交 的 , 即 E(u,1X,) =0。 因 为 u, 是 序列 相关 的 ,这 意味 


Y X, 不 能 包含 的 滞后 值 。 令 L 表示 滞后 算 子 , 且 c(L) = X cl lL) KRH 


c(L)' =a(L) = a -a,L -+ -al -= = a - > al 
将 a(Z) 应 用 到 式 (18. 19) HEH 
a(L)Y, = a(L)g(X,) +e, (18.21) 


式 (18. 21) 中 的 误差 项 是 不 相关 的 。 定 义 
Y,= Y, - > ay - g(X,.,) ) 


那么 式 (18. 21) 可 被 重 写 为 
Y,= g(x,) +e, (18:22) 
公式 (18. 22) 是 一 个 有 效 的 回归 方程 ,因为 误差 e, 是 序列 不 相关 的 。Xiao 
等 (2003 ) 首 次 考虑 了 基于 工 是 已 知 的 假定 下 g(:) 的 一 个 不 可 行 估计 量 。Xiao 
等 考虑 了 一 般 的 局 部 多 项 式 方法 。 这 里 ,为 了 叙述 简便 ,我 们 只 考虑 局 部 线性 
方法 。 令 g(x) 表 示 g(x) 基 于 式 (18. 22) 的 局 部 线性 估计 量 ,那么 在 某 些 附 加 
的 假定 下 ,比如 数据 是 a 混合 的 ,其 混合 系数 满足 一 个 特定 的 衰变 率 ,Xiao 等 
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证 明 
mh. (g0) - glx) -EY gula) ] 一 NCOaseACa)) 
(18.23) 


其 中 , /(: ) 是 X, 的 概率 密度 函数 。 注 意 式 (18. 23) 和 我 们 在 第 2 章 中 讨论 的 独 
立 数据 情形 是 一 样 的 。 同 样 注意 z(x) 是 比 基 于 式 (18. 19 ) 的 估计 量 更 有 效 的 ， 


因为 wm < a? = oY 。Xiao 等 进一步 考虑 了 一 个 可 行 的 估计 过 程 ,其 过 程 描 


述 如 下 :(i) 基于 式 (18. 19) 估计 g(')( 比 如 &(X,) ) ,(ii) 得 到 &, = Y -£g(X,), 
然后 估计 也 的 一 个 > 阶 自 回归 , 即 了 有 = au +…+auu ,+residual,(iii) 使 


E 


HË, =Y,- 5O,- (X, ,)) HER Y, ME, a Gv) EFÈ, = 


g(X,) + error 再 次 估计 gC) 。 这 个 过 程 可 以 迭代 以 得 到 更 好 的 有 限 一 样本 表 
现 , 令 g(x) 表示 g(:) 的 最 终 的 可 行 估计 量 。Xiao 等 证 明 g (x) 与 式 (18.23) 中 
描述 的 8(x) 有 同样 的 渐 近 分 布 。 

我 们 可 以 简单 地 允许 误差 项 遵循 一 个 有 限 阶 非 参 数 ARCH 过 程 , 比 如 
var(u, |Y... Y, p) =m(Y 1,… ,了 _,), 其 中 m(:…) 的 函数 形式 是 未 设 定 的 。 
可 以 用 六 对 于 (YY_,,…,Y,_,) 的 韭 参 数 回 归来 一 致 估计 m(:) ,其 中 心 是 估计 
残 差 ;关于 非 参数 ARCH(P) 模 型 的 理论 和 应 用 参见 Pagan 和 Schwert(1990 ) 以 
及 Hirdle 和 Tsybakov(1997)。 估 计 GARCH 或 ARCH( > ) 模 型 引入 了 一 个 更 
加 困难 的 问题 。 最 近 ,Linton 和 Mammen (2005 ) 提出 了 一 个 新 颖 的 方法 来 一 致 


估计 形式 为 var (Y, | 71,1) = k2 #,(0)m(Y,_,) BJ £ 3 ARCH( = ) 模 型 ,其 中 


9 是 一 个 有 限 维 度 参 数 且 m(:) 的 函数 形式 是 未 设 定 的 2 Linton 和 Mammen #Ë 
立 了 参数 部 分 的 渐 近 理论 以 及 模型 非 参 数 部 分 的 逐 点 分 布 。 

Su 和 Ullah(2006 ) 考虑 了 具有 未 知 形式 非 线性 误差 的 非 参 数 回 归 模 型 。 他 
们 建议 用 非 参 数 核 方法 估计 误差 的 序列 相关 结构 ,然后 修正 序列 相关 得 到 回归 
函数 的 更 有 效 估计 。Peng 和 Yao(2004) 考 虑 了 具有 无 限 方差 的 依赖 误差 的 非 
参数 回归 。 


18.2.3 一 期 提前 预测 


考虑 一 个 简单 的 非 参 数 回归 模型 : 
Y, =g(7 =, Y) + u, (18.24) 


t °”! 1-q 


中 关于 ARCH 和 GARCH 模型 的 创造 性 工作 可 参考 Engle( 1982) 和 Bollerslev( 1986) 。 
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x % & G 8 = w 里 & 


它 是 式 (18. 11) 的 一 个 特殊 情况 ,其 中 成 = (Y.Y) BEREH 
这 个 模型 ,用 大 小 为 n -gq 的 滚动 估计 样本 做 一 期 提前 预测 。 对 上 = 1,…,m, 我 
们 通过 下 式 来 预测 了 ,， 


n+t-1 
i ! > Y,K,(X, - X,,,) 
Kosti = E( Fa | X...) = a 一 一 一 一 一 (18. 25) 


天 十 4 一 上 


天 (X, - bp 


其 中 K,( X, — X...) = [| AECC., _ Yis )/h,) , 因为 X= (Yrsa Y HH 


> T a E APE a T W 

注意 式 (18. 25) 5 Z Bi n-ga 个 观测 值 计 算 E(Y,,,1X,,,) 去 预测 Y ，。 
在 式 (18. 25 ) 的 右边 ,总 和 的 上 限 是 j=n+t-1, 所 以 ,最 近 的 Y dé Yai’ Z 
预测 期 n +z 的 前 一 期 。 因 此 , 式 (18. 25) 的 右边 只 使 用 了 到 n+t-1 期 之 前 的 
信息 去 预测 ,, 的 值 。 这 正好 就 是 我 们 想 要 做 的 一 期 提前 预测 。 在 m 期 之 后 


我 们 可 以 得 到 m 个 一 期 提前 预测 值 7,, ,t=1,…,m, 且 均 方 预测 误差 为 
l < ç 2 
MSFE = ne 人 (18.26) 


在 实践 中 ,研究 者 也 经 常 基于 某 个 流行 的 参数 模型 去 计算 均 方 预测 误差 ， 
比如 六 ,= Qo ta +…+a +uoe 如 果 非 参数 均 方 预测 误差 (显著 
地 ) 小 于 使 用 一 个 简单 的 参数 模型 得 到 的 均 方 预测 误差 ,这 表示 参数 模型 是 设 
定 错误 的 ,那么 应 该 寻找 一 个 更 加 灵活 的 参数 模型 或 者 使 用 非 参数 模型 去 改进 
预测 。 


18.2.4 d 期 提前 预测 


为 了 得 出 d 期 提前 预测 ,我 们 可 以 考虑 下 面 的 回归 模型 : 
V, 二 (18.27) 
这 也 是 式 (18. 11 ) 的 一 个 特殊 形式 . H. ,= (Y,_4,…,Y,_,_,,1)。 假 定 我 们 
使 用 这 个 模型 ,用 大 小 为 n -q -d 的 滚动 估计 样本 做 d 期 提前 预测 。 对 : = 
1,… ,m ,我们 预测 y ,, 为 


n+t-d 


P w I F 3 Y.K, (X; = s. 
Y. = E(Y,, | X.) =2 一 (18.28) 


n+t-d 


> K, ( X, = p 
J=q+d-1+t 


其 中 K, (X, - Xna) = ll h;'k( (Y, - Y... 4.) /h,) o 注意 当 d=1 时 , 式 
(18. 28) 应 退化 为 式 (18. 25)。 
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注意 式 (18. 25 ) 使 用 之 前 n -q -d - W ñ TF E(Y,,,1X,,,) 去 预测 
Y,,,。 在 式 (18. 25 ) 的 右边 ,总 和 的 上 限 是 n+t-d, 所 以 ,最 近 的 7 是 站,,,.,， 
它 在 预测 期 前 d 期 被 测量 , 即 n +t。 因 此 , 式 (18.25) 的 右边 只 使 用 了 到 n+t- 
d 期 之 前 的 信息 去 预测 ,, 的 值 。 对 m 期 的 提前 d 期 均 方 预测 误差 为 


MSFE, = LY (Ena - Y..,)° (18.29) 
=| 


其 中 六 ,是 在 式 (18. 28) 中 被 定义 的 。 

在 实践 中 ,研究 者 经 常 基于 某 个 流行 的 参数 模型 的 均 方 预测 误差 来 进行 比 
较 ,比如 也,,=ao ta,Y.,,. + +a Yer + Wo 

关于 在 预测 框架 中 半 参 数 神经 网 络 模 型 的 相关 研究 参见 Chen 和 White 
(1999) 以 及 Chen ,Racine 和 Swanson(2001 ) 。 


18.2.5 非 参 数 脉冲 响应 函数 的 估计 


考虑 下 面 的 非 参 数 条 件 异 方差 自 回 归 模 型 : 
Y = g(X..,) +c (X, ut=g+1,..,n (18.30) 
Hp X... = (Yat Y) 表示 到 滞后 期 4 的 滞后 观测 值 向 量 ,g(:) 和 co(:) 分 
别 表示 条 件 均值 和 条 件 标 准 离 差 , 且 u, 是 具有 零 均值 单位 方差 和 有 限 第 四 阶 矩 的 
独立 同 分 布 序列 。 遵 循 Koop ,Pesaran 和 Potter(1996) , Yang 和 Tschernig( 2005 ) 为 
水 平 k(GIR, ) 定 义 了 广义 脉冲 响应 为 这 样 的 数量 , 即 仅 基于 直到 t -1 期 的 信息 ,在 
时 期 上 一 个 事先 确定 的 冲击 u 改变 上 期 提前 预测 的 数量 。 也 就 是 说 ， 
GIR,(x,u) = E(Y,,-.,! Xa = x,u, = u) —E(Y,,., ! Xs = x) 
= BY rl Y. = gla) + (WU A = x) — E(Y, ,., ! X. 
=- L = zx) (18.31) 

注意 GIR, 依赖 于 x 和 冲击 x。 一 个 非 线性 脉冲 响应 函数 的 替代 定义 由 
Gallant, Rossi 和 Tauchen ( 1993 ) 给 出 。Yang 和 Tschernig(2005 ) 建议 使 用 非 参 
数 核 方法 去 估计 包含 在 GIR, 中 的 多 期 提前 预测 。 首 先 , 我 们 引入 一 些 记 号 。 
对 上 三 1 ,我 们 记 

#& Ce) = FLY ¿Q 1 XZ.., = x] 
Baleu) =P Yna 1 X... = x t, = t] 
且 可 得 er =g,(X,.,) +o,(X,.,)u,so 
其 中 oi (x) = var(Y,,,., lX, ), 且 wx 是 蒜 差 分 过 程 (因为 天 (ui1X ,) = 
E(u,ilY,.,,…,Y,_,) =0) ,其 具有 单位 条 件 方差 , 即 var(w, ,1X,.,) =1。 又 令 
人 (x) = eov[ (Y... Y...) | X... = x] 
Qy a (z) =cov|[(Y,.,._, =g (X...) Y, z -g(X,.,)]!1X,., =x| 
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$e 


那么 ,我 们 可 以 把 在 式 (18. 31) 中 定义 的 GIR, 用 更 紧 致 的 形式 写 为 
GIR,(x,u) = g,..(g(x) +o(x)u,x) - g(x) = g,.(x,.) - g,(z) 
其 中 x, = (g(x) +o(x)u,x)。 用 它们 各 自 的 局 部 线性 核 估计 量 蔡 代 多 步 预测 
函数 ,我们 得 到 GIR, 的 估计 量 为 
GIR, (x,u) = Bi(%,) - (z) 
其 中 = (&8(x) +0(x)u,x') ,我 们 在 下 面 描述 局 部 线性 估计 量 &(x*) g(a) A 
oT(X)o 


定义 e=(1,0,.,) Z= 


] ... l , 
用 一 区 * X, 
W, = n diag |K,(X, i 
H Y,=(Y,,,- i 2 ,7 了,)'。 那 么 ,g,(x) 的 局 部 线性 估计 量 为 
(x) = e'(Z/W,Z,) `' ZW, Y, (18.32) 
而 
G(x) = |e'(Z/W,Z,) ZWY - g,(x)*|!? (18.33) 
注意 &(x) =ë (a) Hela) =0,(x)。 在 一 些 假 定 下 , 即 h,=ecn“"*,c>0， 
H X 是 一 个 平稳 的 B 混合 过 程 , 且 对 某 些 c。>0 和 0<p<1, 其 混合 系数 满足 
Blr) Scop T ARAF gC) o WAC), 的 密度 ) 的 附加 的 平滑 性 和 和 矩 条 件 ， 


Yang 和 Tschernig(2005 ) 推 出 TY CIR, 的 渐 近 分 布 , 即 

mhh, | GIR, (x,u) - GIR, (x,u) - Y bpas (x,u) | ŠNO, E, (x,u) 
其 中 , 偏 误 首 项 为 

bpas (ws) = bss(x,) -bpa (s) + eb (0) +b, ,(z)u] 
IEP b,a (2) = (x,/2)Ə g,(x)/Əx; , R. 

boks = Kk,[ 92 /90x (gl (x) +aoi(z)) -2g(xz)9 /9xg,(x) ]/[40,(x)] 

渐 近 方差 为 


k'o (x) oti(x, )f(x) , | 2 
S(x) flx,)o (x) ðx, ) 


xfi + uju, iD e -Bata pirate ppal] 


2 


> = 








o (x) ðx, o (x) o (x) 
a x= ðgi -ı (x) Jr -1 (2u) Tn a-i (z) 
F =O (2) i Ox Ce) +u Ox olx) | 


HP u =E(w)(j=3,4)。 
Yang 和 Tschernig(2005 ) 也 为 oi(x) 提 出 了 一 个 替代 的 即 基 于 估计 的 非 参 
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数 残 差 项 的 估计 量 : 
g l(x) = e'(Z'W,Z,) 'Z' WV, (18.34) 
j&i V. = ([Y. I S= A (X... y] =, [Y. =# (23...) h H 
F UH É fg h r E J 48 28 2 370 09 , PR 10, AA RET k 4 Hi WJ HJ ñ 89 
声 , 它 可 能 会 噪声 过 度 。 为 了 更 有 效 地 估计 g,(x),Yang 和 Tschernig( 2005 ) #Ë 
议 了 另 一 个 多 阶段 方法 , 它 是 由 Chen, Yang 和 Hafner(2004 ) 为 估计 GIR, 提出 
的 ,下 面 我 们 将 简要 介绍 。 令 YY”= 7, 且 对 j=1,…,k 重复 下 面 的 步 又 ,计算 


n-k 
TR 


t+J 


g (K) = = (18.35) 


其 中 了 0 = fiX) o WEP jk B g(a) o Chen 等 证 明 
fah h, | ala) ~ (a) = Y bpa (h ] S NCO, e's, (x) /f(x)) 


其 中 (xz) =var( f... (X,) IX, =x)。 由 式 (18.35) 给 出 的 多 步 预 测量 f,(<) 
和 式 (18. 34) 给 出 的 条 件 标准 离 差 估计 量 5,(x) (k=1,o(x) =a,(x) ) ,这 推出 
了 CIR, 的 另 一 个 估计 量 : 
GIR, (x,u) = f,.(z,) - #,(z) 
Yang 和 Tschernig(2005 ) 报 告 的 模拟 结果 表明 多 过 程 估计 量 GIK, 在 均 方 误 


差 意 义 上 来 说 比 直接 的 估计 量 CIR, 表现 更 好 。 


18.3 ”依赖 数据 的 半 参 数 模型 


18.3.1 依赖 数据 的 部 分 线性 模型 


Andrew(1994) 考 虑 了 一 类 一 般 的 半 参 数 模型 ,其 包含 半 参 数 部 分 线性 模型 

作为 一 个 特例 。 我 们 在 这 一 节 考 虑 的 具有 依赖 数据 的 部 分 线性 模型 为 
Y, = Xy + 0(Z,) + u, 

我 们 考虑 BB 混合 模型 的 情形 。 因 此 ,假定 (X',2') 为 具有 混合 系数 B, 的 B 
混合 过 程 ,u, 是 一 个 蒜 差 分 过 程 。 我 们 使 用 与 在 独立 数据 情形 中 同样 的 方法 估 
计 y。 也 就 是 说 ,我 们 基于 下 面 的 回归 方程 估计 y( 见 第 7 章 的 式 (7. 11) ) ; 

p pa AT A =(X,- X,) 'f,y + error 
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m m = x p = & a x 


Hp X, = n" Y XK, Í. 为 EE(X,1 Z,) 的 核 估计 量 ,7 了 ，= n" Y YK, a/f, 是 


E(X,1 Z,) 的 核 估 计量 , 且 f, = f(Z,). 

正如 第 7 章 所 述 ,y 的 半 参 数 估计 量 是 由 (Y, - Y,) f, 对 (X,--%)f, 进行 回归 

得 到 的 最 小 二 乘 估 计量 , 即 
7 = [X DAA - 40] E A -RAO - D 
(18.36) 

我 们 给 出 关于 有 混合 过 程 的 一 个 引 理 。 

引 理 18.1 假定 ,…, 是 一 个 随机 向 量 (X,e 民 ') 的 B 混合 过 程 。 仿 
g(x) J Borel 可 测 函 数 , 且 假定 Elg,(X,)g,(X,,)|<M,, 且 对 8>0 A M, >0， 
E |g,(X)|' E |g,(X,.,) |' “< M,,B82Z 

|E[g.(X,)g,(X,.,)]-E[zg,(X,)]E[zg,(X,.,)]| 84M? |B(7) |” 

证 明 : 见 Yoshihara( 1976) 的 引 理 1 。 

使 用 引 理 18. 1 ,Fan 和 Li(1999b) 证 明了 下 面 的 结论 。 

定理 18.5 在 与 定理 7.2 中 给 出 的 关于 g(:) 和 f(: ) 的 相似 条 件 下 ,但 是 
用 1Y,,X,,Z,1 "是 B 混 合 过程 , 且 其 B 混 合 系数 BB, 满足 对 0<e<1 和 0<5< 
max|1/2,2/(g -2)|,B*”*”=0(7”…*“) 这 一 条 件 , 替 代 独 立 同 分 布 条 件 ,那么 

Jnl? - y) > N(0,X) 依 分 布 收敛 

其 中 

X = lE[se f’ (Z) I] "E[o'(X,,Z,)o "f (2Z)] (Elow fD] 

=p Np" 

注意 表达 式 ó = ay (X, - X.) (X, -NA MAn, (ú, f.)' (X, - 
X,)/, (X, - X,)'f, 分别 是 @ 和 0 的 一 致 估计 量 , 其 中 心 = (Y, - Y,) - (X, - 
£,) "yo 

比较 定理 18.2 和 7.2, 我 们 看 到 对 弱 依 赖 数据 和 独立 数据 ,7 的 渐 近 分 布 
是 一 样 的 。 这 不 仅仅 是 因为 弱 依赖 数据 的 假定 ,更 重要 的 是 因为 我 们 假定 wu 是 
一 个 蒜 差 分 过 程 (因此 是 序列 不 相关 的 ) 。 如 果 u, 为 序列 相关 的 ,7 的 渐 近 方差 
可 能 有 一 个 差分 形式 ;参见 Newey #1 West( 1978) ,Andrews(1991b ) ,以 及 Kiefer 
和 Vogelsang( 2002) 关于 异 方差 和 自 相关 稳健 协 方差 矩阵 估计 的 最 新 研究 。 
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18.3.2 可 加 回归 模型 


考虑 一 个 如 下 形式 的 可 加 模型 ; 
Y, = g, (X,,) + = + g Aa) + u, (18.37) 
在 弱 依 赖 下 的 估计 过 程 和 我 们 在 第 9 章 中 讨论 的 独立 数据 情形 是 一 样 的 ， 
即 我 们 可 以 用 基于 核 的 逆向 拟 合 (backfitting ) 方 法 ,边际 积分 方法 或 者 非 参数 
序列 方法 来 估计 式 (18. 37), 
S Xa = 了 .ss=1…,d, 那 么 式 (18.37) 成 为 
Y, = g, (Y, ,) +e + g (Y,a) * u, (18.38) 
且 如 果 我 们 使 用 核 方 法 (比如 , 见 Kim 等 (1999)), 可 以 引入 识别 条 件 
ELlg,(Y, ,_,)] =0,s =1,…,g 一 1, 或 者 当 使 用 序列 (比如 样 条 ) 方 法 时 ,要 求 
g,(0) =0,s =1,…,g -1。 然 后 ,模型 (18.38) 可 以 被 用 于 做 d 期 提前 预测 。 
可 加 模型 的 一 个 缺点 在 于 它们 不 允许 在 (X,,…,X,) 中 有 一 般 的 交互 项 。 
为 了 允许 交互 项 同时 保持 非 参 数 可 加 结构 以 避免 维 数 诅咒 ,可 以 考虑 我 们 在 第 
9 章 中 讨论 的 那 种 类 型 的 部 分 线性 可 加 模型 。 例 如 , 当 g=2 H X, =Y, 4. (8 = 
0,1) 时 ,可 以 考虑 以 下 模型 ; 
Y, = Za + g, (Y.a) 二 Bo) + u, (18.39) 
Jt Z = Y, JY... ya 
这 个 模型 的 估计 方法 与 我 们 在 第 9 章 的 讨论 是 一 样 的 。 模 型 (18. 39 ) 允许 
交互 项 作为 参数 成 分 进入 模型 。 
Gao 和 Tong(2004) 考 虑 了 在 一 般 的 具有 依赖 数据 的 部 分 线性 模型 中 的 模 
型 选择 问题 。 他 们 提出 了 一 个 在 参数 和 非 参 数 成 分 上 选择 滞后 变量 数目 的 一 
个 新 疾 的 交错 鉴定 过 程 。 


18.3.3 依赖 数据 的 变 系数 模型 


在 第 9 章 考 虑 的 变 系数 模型 具有 以 下 形式 : 
Y, = X'8(Z,) + u, (18.40) 
HP X, = (Xas Xp) TÆ p 维 的 ,B(z) =(B,(z) ,…,B,(z)) 是 一 个 Px1l 未知 
平滑 函数 向 量 , 且 Z, = (Z, ,- Zu) E q 维 的 。 
其 估计 方法 和 独立 数据 情形 时 一 样 。 可 以 使 用 局 部 常数 或 者 局 部 线性 方 
法 来 估计 B(z) 。 例 如 ,B(z) 的 局 部 常数 估计 量 为 


Bs) = [X AXK] EYK (18.41) 


HEP K,, = |] h; KCC, - Z.) /h,) 为 乘积 核 。 
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对 于 B(z) 的 局 部 线性 估计 量 及 其 导 郴 数 估 计量 ,在 许多 混合 条 件 下 Cai, 
Fan 和 Yao(2000) ,Cai ,Fan 和 Li(2000) ,以 及 Fan,Yao 和 Cai(2003) 证 明了 估 
计 方 法 以 及 局 部 线性 估计 量 的 渐 近 分 布 和 第 9 章 讨论 的 独立 数据 情形 是 一 
样 的 。 

在 式 (18. 40) H RAITI X, = (了 …, 了 ,尽管 Z, 也 是 一 个 变量 向 
量 。 然 而 ,在 实践 中 研究 者 经 常 选 择 Z, 为 一 个 标量 ,有 以 下 两 个 原因 :首先 ,可 以 
避免 维 数 诅 吕 问题 ;其 次 ,为 了 直观 检查 B, (2) (可 能 是 非 线性 ) 的 函数 形式 ,对 
=1,…,, 我 们 可 以 简单 地 画 出 z 一 B,(z) 的 二 维 图 表 (s =1,…,p)。 


18.4 ” 半 参 数 模型 中 的 序列 相关 性 检验 


18.4.1 检验 统计 量 及 其 渐 近 分 布 


我 们 再 次 讨论 在 18. 3. 1 节 中 提出 的 半 参 数 部 分 线性 模型 。 回 忆 这 些 模型 
的 形式 为 
Y = X'y +0(Z,) +u, t =-L+1,.,0,1,..…,n (18.42) 
其 中 XX 是 dxl 维 ,2Z, 是 qxl 维 ,y h: d x ESK, H 9(:) 为 未 知 平滑 函数 。 
我 们 所 关注 的 假定 是 误差 项 u, 是 否 为 零 一 阶 序列 相关 或 者 零 有 限 阶 序列 相关 。 
正如 第 7 章 中 讨论 的 那样 ,为 了 检验 u, 的 零 ( 有 限 阶 ) 序 列 相关 ,使 用 二 阶 
段 法 首先 用 下 式 估 计 y, 
y = rN 
对 于 标量 或 者 列 向 量 数列 ,其 第 :个 元 素 为 4,/, 和 Bf, 我们 使 用 记号 Sipa = 
pa A,ÎB! f M Sy =S; y, B X, = É(X,1Z,) fl Y, = É(Y,1Z ) 分 别 表示 


E(X,1Z,)#ll ECY, 12) Ki Hy 我 们 可 以 通过 下 式 估计 忆 : 
区 (18.43) 


18.4.2 检验 零 一 阶 序 列 相关 性 


Li 和 Stengos(2003 ) 建 议 用 一 个 密度 一 加 权 检 验 统计 量 来 检验 缺乏 零 一 阶 
序列 相关 性 。 他 们 在 一 个 比 假定 误差 u, 为 款 差 分 过 程 更 强 的 假定 下 推导 出 
其 检验 统计 量 的 渐 近 分 布 。 在 这 个 条 件 下 ,我 们 有 pj= E(u,fu,_1f.1)=0 且 
p=E(u,u,.,) =0。 为 了 检验 零 一 阶 序列 相关 性 ,检验 统计 量 的 构造 基于 pr 或 
者 p 的 样本 对 应 值 。Li 和 Stengos 构建 了 一 个 基于 p, 的 样本 对 应 值 检 验 统计 
量 ,因为 它 避 免 了 在 核 估 计量 中 出 现 一 个 随机 分 母 所 带 来 的 技术 困难 。 检 验 
统计 是 基于 


第 18 章 弱 依 赖 数据 


e ] í“ s A .Á. 
z => ü š. f. A (18.44) 


Li 和 Stengos( 2003 ) 证 明了 下 面 的 结论 。 

定理 18.6 假定 误差 u 是 一 个 款 差 分 过 程 ,那么 

(i) J, 一 N(0,o  ) 依 分 布 收敛 
其 中 o = E[ |(u,. f. -of B Bu l], Ø = E[sfu,. f,. L ], v, = X, - 
E(X,1Z,),B =E[ (X, - X.) (X, -xX,)'(f.)’]。 

(ii) ó2 = po |[ š, f.  - (X, -i $È Ò], AI E ol 的 一 致 估计 
ERP Ó = Y (X, - 408, fa ,5 = — Y A - 4) A,- (A 
因此 

J Zà, N(0,1) 
注意 当 X 和 2, 是 严格 外 生 时 ,J, 统计 量 是 与 Durbin 和 Watson( 1950 ) 的 检验 统 
计量 相似 的 ,然而 当 Z, 包含 了 了 的 滞后 量 , 即 Y,_, 时 , 它 类 似 于 Durbin( 1970) 
的 h 统计 量 。Li 和 Stengos(2003 ) 也 考虑 了 检验 更 高 阶 的 序列 相关 性 。 

上 面 对 序 列 相关 性 的 检验 允许 灵活 的 回归 函数 形式 。 然 而 ,这 样 设计 只 是 
为 了 检查 出 特定 形式 的 序列 相关 (比如 ,AR(1) ) ,并 不 是 检查 未 知 形式 的 序列 
相关 性 的 一 致 检验 。Hong(1996) 和 Pinkse( 1988 ) 提出 了 某 些 检验 统计 量 对 于 
参数 回归 函数 形式 假定 中 的 任意 类 型 的 误差 序列 相关 性 都 是 一 致 的 。 

Robinson( 1989 ) 介绍 了 一 个 对 经 济 时 间 序 列 的 半 参 数 和 参数 模型 的 一 般 的 
检验 过 程 ,并 且 将 其 应 用 到 理性 预期 “惊奇 模型 ”和 市 场 非 均衡 模型 。 他 的 方法 
包括 根据 一 个 条 件 惩 限 制 做 出 原 假定 。 我 们 也 可 以 使 用 Robinson 的 方法 去 检验 
零 有 限 阶 序列 相关 性 ,或 者 ,更 为 一 般 地 ,检验 一 个 形式 为 几乎 处 处 E[ YY,1X, ,2,] 
=X/y +0(Z,) 的 部 分 线性 模型 的 正确 设 定 。 


18.5 依赖 数据 的 模型 设 定 检验 


在 这 一 节 我 们 考虑 检验 正确 的 参数 回归 函数 形式 的 原 假定 ,同时 考虑 出 现 
弱 依 赖 数据 的 非 参 数 显 著 性 检验 。 在 第 12 章 和 第 13 章 中 考虑 到 的 其 他 检验 
都 可 以 扩展 到 弱 依 赖 数据 。 


18.5.1 对 正确 参数 回归 函数 形式 的 一 个 核 检 验 


为 了 叙述 简便 ,我 们 关注 检验 线性 原 假定 模型 。 我 们 考虑 的 原 假定 因此 为 
H::E(Y,l] X, = x) = x'y ,几乎 所 有 > (18.45) 
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至 于 独立 数据 情形 ,我 们 基于 P = E[uE(wu,1X,)f(X,)] 构 造 我 们 的 检验 。 

7 的 样本 对 应 值 为 
y l “ANA 
I = es T P, z: uu K,( X, - X,) 

其 中 必 =Y -XI 是 基于 ( 零 ) 线 性 横 型 的 y 的 最 小 二 乘 估计 量 。 回 忆 我 们 使 
用 Hall( 1984) 中 心 极 限定 理 去 建立 在 假定 H; Fú P 的 零 分 布 。Hall 的 中 心 极 
限定 理 已 经 由 Fan 和 Li(1999a) ,Hiellvik ,Yao #ll Tjéstheim ( 1998 ) 扩展 到 可 以 用 
T 538 4k 0 (8 混合 ) 数 据 。 下 面 的 定理 由 Fan 和 Li 证 明 。 

定理 18.7 假定 六 一 0(s =1,…,9q), 当 mn 一 om 时 ,ni 一 oa 。 同 时 假定 
A(X,) 和 EE(Y1X;) 的 某 些 矩 和 平滑 条 件 ( 详 见 Fan 和 Li(1999a) ) ,在 H 下 可 得 

T. = n (hh )' 26, — N(0,1) 依 分 布 收敛 

Jp l = US YY Se (X, - X) 

比较 定理 18.7 和 12.1, 可 见 不 管 数据 是 独立 的 还 是 弱 依 赖 的 ,7: 的 渐 近 分 
布 是 一 样 的 。 

Fan 和 Li(1999a) 也 证 明了 如 果 H; 是 非 真 的 ,7 以 速率 n (h oh ) 2 A T 
+ % 。 因 此 ,7 是 一 个 一 致 检验 , 即 如 果 可 为 非 真 , 当 n 一 %w 时 ,拒绝 零 假 定 的 
概率 趋 于 1。Li(2005 ) 建 立 了 自 举 过 程 逼 近 罗 检验 的 零 分 布 的 有 效 性 。 另 外 ， 
我 们 可 以 放松 误差 是 序列 无 关 的 假定 ,而 使 用 由 Berkowitz, Kilian 和 Birgean 
(1999 ) 提出 的 重复 抽样 算法 计算 自 举 统计 量 ,其 对 于 未 知 形式 的 序列 相关 性 是 
稳健 的 。 


18.5.2 非 参 数 显 著 性 检验 


Fan 和 Li(1996) 以 及 Lavergne 和 Vuong(2000) (E 12.3.4 节 讨 论 的 ) 考 虑 
的 非 参数 遗漏 变量 检验 ( 即 显 著 性 检验 ) 被 Li( 1999 ) 证 明 对 于 B 混合 数据 是 可 
行 的 。 在 误差 项 是 熟 差 分 过 程 的 假定 下 ,检验 统计 量 的 构建 和 它们 的 渐 近 分 布 
是 和 12.3.4 节 中 给 出 的 结果 一 样 的 ,因此 我 们 不 再 闭 述 。 

对 时 间 序 列 ( 即 依赖 ) 数据 的 模型 设 定 检 验 有 大 量 的 文献 。Juhl 和 Xiao 
(2005 ) 提出 了 一 个 对 于 在 参数 时 间 趋 势 模型 中 的 结构 变化 的 稳健 的 非 参 数 检 
验 ( 也 参见 Delgado 和 Hidalgo ( 2000 ) 对 于 在 时 间 序 列 模型 中 发 现 结构 突变 的 其 
他 检验 ) Kuan 和 Lee(2004 ) 建议 基于 经 验 特 征 函 数 检 验 蒜 差分 假定 。Chen， 
Chou 和 Kuan(2000) 提 出 了 一 种 方法 检验 时 间 可 道 性 ,也 是 基于 特征 函数 方法 
(这 具有 不 用 引入 任何 和 矩 限制 的 优势 ,因为 特征 函数 一 般 都 是 有 界 的 ) ,但 是 
Fan(1997 ) 使 用 经 验 特征 函数 来 检验 一 个 多 元 分 布 函数 的 正确 参数 设 定 。 
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K x S °, m 好 ë s= £ 


18.6 ”回归 函数 形式 的 非 平 滑 性 检验 


我 们 也 可 以 用 一 个 非 平滑 检验 来 检验 原 假定 H :几乎 处 处 E(Y,1X,) = 
m(X,,y)。 使 用 引 理 A. 19( 其 包含 平稳 过 程 ) 给 出 的 Hilbert 空间 中 心 极 限定 理 
是 很 容易 做 到 这 一 点 的 。 

Bierens 和 Ploberger( 1997) 考虑 了 基于 下 式 的 统计 量 : 


J.(x) =n" > ù, H(X,,x) 
t=1 


Jep ù, =Y, -m(X,,y) , B. y E: y 的 基于 原 模 型 的 估计 量 (通常 是 n 一 致 的 ) 。 
最 终 的 条 件 矩 (CM ) 检验 为 


1 š > 2 
CM, = Ti [J.(X,) ] (18.46) 
例如 ,可 以 使 用 K(X,,x) = 工大 x) ,或 者 在 第 13 章 中 讨论 的 其 他 选择 。 
Bierens 和 Ploberger( 1997 ) 证 明 CM, 在 三 下 依 分 布 收敛 于 | [J.(x)] 'F(dxz), 


JC) 是 定义 良好 的 零 均值 高 斯 过 程 , 且 F(…) 是 XX, 的 累积 分 布 函 数 。 

Chen 和 Fan(1999) 考 虑 了 一 个 对 于 B 混合 数据 的 CM, 类 型 非 参 数 显著 性 
检验 ,他 们 也 证 明 可 以 使 用 一 个 平稳 自 举 法 (Politis 和 Romano ( 1994 ) ) š jË jz 
其 检验 统计 值 的 零 分 布 。 研 究 者 也 可 以 使 用 平稳 自 举 法 去 副 近 式 (18. 46) 中 定 
义 的 CM, 检验 的 零 分 布 。 


18.7 检验 参数 预测 模型 


18.7.1 条 件 累积 分 布 函数 的 样本 内 检验 


概率 积分 转换 法 
令 F(y| 工 .,) = 已 (y| 工 .,) 表 示 条 件 于 直到 上 -1 期 的 信息 集 下 Y, 的 真实 
累积 分 布 函数 , 令 FY, |T, 1,00) = F,(Y,|Z,., ,0 ) 为 参数 条 件 累积 分 布 函 数 ， 
其 中 9, 为 一 个 有 限 维度 参数 。 我 们 为 了 叙述 方便 ,省 略 (:) 中 的 下 标 1。 我 们 
要 检验 被 选择 的 参数 累积 分 布 函 数 是 否 等 于 真实 累积 分 布 函数 。 于 是 , 原 假定 为 
本:P(Y Syl T,,) = F(Y, | T.,,0,)a.s. , 某 些 b, e O (18.47) 
其 中 工 , 包 含 了 直到 上 -1 期 的 所 有 相关 变量 ,对 立 假定 是 对 H, 的 否定 。 
Diebold ,Gunther 和 Tay( 1998) 建议 检验 U, = F(Y, |Z... ,6,) 是 否 是 均匀 
分 布 的 。 这 是 基于 V,=F(Y,| 工 _,) 是 独立 同 分 布 且 在 单位 区 间 [0,1] 内 是 均 
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匀 分 布 的 事实 。 因 此 ,如 果 F(Y,|Z 0o) EE E E, FY, |T, 1,00) E 
单位 区 间 内 也 是 均匀 分 布 的 。Diebold ,Hahn 和 Tay(1999 ) 将 这 种 检验 方法 扩 
展 到 多 变量 了 情形 ,使 得 它 可 以 用 于 评估 密度 预测 的 准确 性 ,包括 变量 间 的 
交互 作用 。Diebold 等 (1998 ) 检验 的 渐 近 分 布 是 非 标 准 的 , 且 需 要 使 用 模拟 
或 者 自 举 的 方法 计算 检验 统计 量 的 临界 值 。Bai(2003 ) 提出 使 用 一 个 款 转 换 
得 到 一 个 见 系 参 数 自由 检验 ;也 可 参见 Pesaran 和 Timmermann(1992 ) 的 另 一 
个 预测 检验 。 我 们 在 下 面 简 单 地 讨论 Bai 的 检验 方法 。 在 Markov 假定 下 , £f 


在 一 个 有 限 维 变量 Z! ,使 得 F(Y,|Z'',0,) =F(Y,| 工 .,,0,)。 令 9 表示 一 
个 基于 原 假定 的 0, 的 Yn 一 致 估计 量 。 定 义 Ü =F(r|2Z'',9) ,那么 对 于 re 
[0,1] ,可 以 用 n! > 1(Ü, < r) ii F(r|Z''',0,), B 3# Z 55 8 3k 38 tk R 


def 


分 布 函 数 F(r|12Z')=r 进行 比较 。 于 是 ,我 们 可 以 基于 V(r) = 
n? Y [1( Ü, < r) - r] 93k H,, Bai 证 明 


V, (r) "ES [1(U, < r) - r] +z(r)'/n(0 - 0) +o,(1) (18.48) 
n :=l1 


其 中 
g(r) = p lima"! Y dE caz N A a a git 
式 (18. 48 ) 右 边 的 第 二 项 依赖 于 未 知 函数 F(-) A-0). Ae, V, C) HE 
分 布依 赖 于 这 些 见 系 参数 , 且 不 能 将 这 个 检验 的 临界 值 列 表 显 示 。 然 而 ,通过 
应 用 一 个 拷 转 换 ,我 们 可 以 移 去 5" (r)Vna(b- gb) 这 项 ,上 且 这 个 转换 过 程 会 有 一 
个 见 系 参数 的 自由 极限 分 布 。 令 z 表示 g(:) 的 导数 , 且 定 义 C = 
J (ya (7)'dr。Bai(2003) 建 议 了 下 面 的 见 系 参数 分 布 自由 检验 统 
计量 : 
W.(r) = V,(r) - f (8 VCC) [ev (Da C) as (18.49) 
式 (18.49) 的 右边 第 二 项 包含 积分 ; Bai (2003 ,附录 B) 提出 了 一 个 计算 积 


分 的 数值 方法 。 
在 一 些 正则 性 条 件 下 ,Bai(2003 ,推论 1) 证 明了 下 面 的 结论 : 


Ho: sup | W,(r) | S sup | W(r) | (18.50) 
其 中 W(7) 是 一 个 标准 布朗 运动 。 于 是 ,极限 分 布 是 没有 见 系 参数 的 , 且 临 界 值 
可 以 列表 表示 , 见 Bai。 如 果 H, 非 真 ,统计 量 sup |W, Cr) | 以 速率 Vn 趋 近 + om ， 
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从 而 它 是 一 个 一 致 检验 。Bai 进一步 讨论 了 怎样 将 他 的 检验 应 用 到 检验 特定 的 
参数 条 件 累 积分 布 函数 ,包括 一 般 的 GRCH(p,g) 过 程 和 某 些 参数 非 线 性 时 间 
序列 模型 。 
Corradi 和 Swanson 的 基于 自 举 检验 
Corradi 和 Swanson(2006) 提 出 了 一 个 对 于 参数 条件 累积 分 布 函 数 正确 设 
定 的 检验 。Corradi 和 Swanson 的 检验 的 一 个 不 同 特征 是 其 允许 动态 误 设 。 也 
就 是 说 ,Corradi 和 Swanson 假定 变量 Z' ` ' 的 选择 集 没有 包含 所 有 相关 的 历史 信 
局 :x “x 
Ü, = P(Y,|Z1,0) 
其 中 
0 = arg min 二 > Inf( Y, | Z”! ,0) 
HA- |,- ) 是 对 应 的 参数 条 件 概 率 密度 函数 。 现 在 定义 
l = 、 
V = — 1(U <r) -r 
U) Tà! (U, < r) -r] 


在 某 些 合适 的 假定 下 ,包括 允许 动态 误 设 (2 可 能 不 等 于 7,),Corradi 和 

Swanson( 2006 ) WE HH E H, IR F, 
P. sup 1 (7) | S sup | V(r) | (18. 51) 

其 中 V(:) #— 4 RAT REE HY 88 E , H. Bh y 2 ARU T A # giit 
和 可 能 的 动态 误 设 的 误差 。 

上 面 的 FV, 不 是 没有 见 系 参数 的 。Corradi 和 Swanson ( 2006 ) 建议 使 用 一 
个 自 举 过 程 计算 V, 检验 的 临界 值 。 这 包括 将 再 抽样 序列 的 经 验 累 积分 布 函 
数 在 自 举 估计 量 取 值 和 真实 序列 的 经 验 累 积分 布 函数 在 基于 真实 数据 的 估 
计量 取 值 之 间 进 行 比较 。 他 们 使 用 下 面 的 重 倒 区 块 再 抽样 方案 :在 每 个 复制 
样本 中 ,从 原始 样本 {WW,1 "中 的 长 度 1 中 抽出 5 区 块 ( 有 放 回 ) ,其 中 WW,= 
(i 例如 ,第 一 个 区 块 是 Wt š, € 11, n -1 _- l| 
有 概率 1/(n -1 -1) ,第 二 个 区 块 是 W, Wa, HI i 有 概率 1/(n - 
I -1) (i, 可 以 等 于 i ) ,等 等 。 于 是 ,再 抽样 序列 wW; 为 Wi sss p y 了 
W = WW W... W... 令 6 表示 使 用 自 举 样本 得 到 的 6 估 
计量 , 且 和 定义 

P: (r) = n (1| F(Y; g g") < | -1|F(Y,|Z' 1, 0) < r| ) 

那么 自 举 统计 量 为 
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V” = ,sup | V* (r)i (18. 52) 
Corradi 和 Swanson (2006) 建 立 了 上 面 的 自 举 过 程 的 有 效 性 。 令 
| 产 (7r) ERR B 自 举 统 计量 , 且 令 六 表示 | 了 V(r)} 4, 的 第 1--a 个 百 分 
位 点 。 那 么 对 于 一 个 水 平 为 a 的 检验 ,如 果 V > Pl ,拒绝 假定 ;否则 ,不 
能 拒绝 Hoo 
18.7.2 条 件 累 积分 布 函数 的 样本 外 检验 


前 一 节 是 处 理 条 件 累 积分 布 函 数 的 正确 设 定 的 样本 内 检验 。 然 而 ,如 果 对 
样本 外 预测 有 兴趣 的 话 ,那么 对 于 评估 样本 外 预测 的 精确 度 将 会 更 加 感 兴趣 。 

对 于 样本 外 检验 ,需要 将 样本 分 成 两 部 分 ,对 估计 样本 有 民 个 观测 值 ,对 预 
测 样本 有 P 个 观测 值 (n =R+P)。 当 进行 预测 时 ,模型 是 被 递归 地 估计 或 者 使 
用 一 个 滚动 样本 来 估计 。Corradi 和 Swanson(2006 ) 提供 了 使 用 两 种 估计 方法 
的 详细 讨论 。 下 面 我 们 只 讨论 Bai(2003 ) 的 检验 以 及 Corradi 和 Swanson 的 检 
验 的 递归 估计 情形 。 

Bai(2003 ) 的 V, 统计 量 与 之 前 的 定义 是 一 样 的 , 即 


. L = ; 
V (r) = — liF(Y ,|Z' <ri-r 
D = A EEn im) < rl =n 


其 中 ,9, ,是 使 用 递归 样本 得 到 的 0, 的 估计 量 , 即 
Oe = arg min Y” gCY,,Z™ 0), t = R,.…,n—l (18. 53) 
且 4(Z ,2 一,9) 是 目标 函数 ,比如 ,g( 了 ,2 ,9) = -In/( Y,, Z ,9) 的 拟 极 大 似 
然 估计 ,其 中 f(: ) 为 给 定 Z'“' 时 了 的 ( 伪 ) 密 度 。 
对 只 (r) 应 用 蒜 变 换 得 到 
Ormen = Pr) = f ECE” G) | eC) dP, C) ds 
在 R 和 P 一 % WEF , (O, e- 9,) =0,(P-2) 在 上 上 均匀 分 布 (这 要 求 


P/R—AÀ,À < e ), 且 与 样本 内 检验 情形 中 使 用 的 类 似 的 条 件 下 ,那么 在 假定 
H, F 
sup É,...(r) EA wr ER (18. 54) 


其 中 如 前 所 述 ,W( -) 是 一 个 标准 布朗 运动 。 
我 们 现在 转向 Corradi 和 Swanson (2006) 的 样本 外 检验 。 首 先 ,定义 Ü, pae = 


n-i 
F( Kat |Z',0,—) , 且 令 Tai = p~? > CRC in < r) s a r) 
t=R 
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那么 ,在 一 些 正 则 性 条 件 下 ,包括 丸和 Po 以 及 P/R—AÀ,0 < À < o ,Cor- 
radi 和 Swanson( 2006 ) 证 明 在 假定 H, F, 
V... = sup V. taS sap sd (18. 55) 
e[0,1] 
其 中 V( ° .) 是 一 个 具有 零 均值 和 良好 定义 协 方差 画 数 的 高 斯 过 程 。 因为 V 不 是 
没有 元 余 参 数 的 ,我们 可 以 依赖 再 抽样 过 程 去 通 近 它 的 零 分 布 。 
ER W, =(Y' ,Z ") ,t=1,…,n 的 区 块 自 举 法 方案 与 我 们 先前 讨论 的 
样本 内 检验 情形 是 完全 一 样 的 。 再 抽样 序列 由 个 区 块 组 成 , 它 条 件 于 样本 ， 


是 离散 的 独立 同 分 布 均匀 随机 变量 。 定 义 .为 


.. _ . 1 z . * .j-] 
Ô irec = arg min ; y 3 [aC Y, jZ ,0) 


-0 ($F V 0Q(Y,,Z°” „Ô, ..) )) (18.56) 


其 中 R<t<n -1。 注 意 重要 的 是 式 (18. 56) 是 围绕 (总 ) 样 本 均值 波动 (recen- 
tered ) 的 ,否则 自 举 过 程 会 有 一 个 不 可 忽略 的 偏 误 项 ,即使 是 渐 近 的 。 
定义 


VD = (EO bm) < 


-Tr 2 0... < r)]) (18.57) 


自 举 统计 量 为 
P'a = ,sup | Vwelr) | (18. 58) 


Corradi 和 Swanson(2006 ) 证 明 放 .的 自 举 分 布 提供 了 VV,,.。 零 分 布 的 一 阶 
HW. $ 17. 1. RR AREH B, HS Vn E SALA ra 88 1 - a + 
百 分 位 点 ,如 果 V... > = Ikasqa ,拒绝 H,; €: lJ ,不 能 拒绝 Hoo 


18.8 应 用 


18.8.1 预测 短期 利率 


解释 利率 的 期 限 结构 在 货币 经 济 学 中 有 丰富 的 历史 ;详细 的 讨论 参见 
Campbell( 1995) 和 其 中 的 参考 文献 。 套 利 理论 认为 长 期 利率 和 短期 利率 之 间 
必须 是 协 整 的 (Campbell 和 Shiller(1987))。Anderson(1997) 以 及 Hanson 和 
Seo(2000) 使 用 参数 非 线 性 模型 提供 了 相关 证 据 , 而 Bachmeier #1 Li (2002 ) 使 
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用 美国 利率 数据 估计 了 一 个 半 参 数 误差 修正 模型 (ECM) ,发 现 了 在 期 限 结构 中 
的 非 线 性 证 据 。 也 参见 White ( 2000 ) 对 以 下 统计 问题 的 讨论 :时间 序 列 数据 的 
重 利用 ,以 及 对 在 一 个 特定 的 搜寻 中 遇 到 的 最 好 的 模型 与 给 出 的 基准 模型 相 比 
并 没有 预测 优势 这 一 原 假 定 的 检验 过 程 。 
Bachmeier 和 Li(2002) 考 虑 了 下 面 的 基准 线性 ECM ,使 用 BIC 来 选择 适当 
的 滞后 期 。 
Ar =p + aW,, +y, AR, + y;Ar,_, + u, (18. 59) 


其 中 是 长 期 利率 ,r EAMA, W, =R, -Br ,是 误差 修正 项 , 且 B 是 估计 
的 协 整 系数 。 

正如 Anderson(1997) 以 及 Hansen 和 Seo(2000) 所 主张 的 那样 ,线性 性 并 没 
有 隐 含 在 期 限 结构 理论 中 。Li 和 Wooldridge( 2002) 研究 了 这 种 可 能 性 ,一 个 半 
参数 ECM 可 能 提供 一 个 对 于 潜在 过 程 的 更 好 的 经 验 描 述 。Li 和 Wooldridge 考 
虑 的 半 参 数 ECM 为 以 下 形式 : 

Ar = 0(W,.,) + y, AR,., + y; Ar,., + u, (18.60) 

其 中 8(: ) 是 一 个 未 知 函 数 形式 。 因 此 , 式 (18. 60) 是 一 个 半 参 数 部 分 线性 模 
型 。 模 型 (18. 60) 与 第 7 章 中 讨论 的 模型 的 不 同 点 在 于 元 素 ww,_, 是 一 个 生成 的 
回归 元 。Li 和 Wooldridge 提供 了 基于 式 (18. 60) 的 估计 和 推断 理论 。 式 
(18.59) 和 (18.60) 的 区 别 在 于 在 式 (18.59) 中 误差 修正 项 是 线性 进入 的 ,而 在 
式 (18.60) 中 误差 修正 项 是 非 线 性 和 非 参 数 的 。 

遵循 Bachmeier 和 Li( 2002) ,我 们 考虑 在 McCulloch 和 Kwon(1993 ) 中 使 用 
的 期 限 结 构 数 据 。 我 们 使 用 月 度数 据 比 较 式 (18.59) 和 (18.60) 中 的 样本 预测 
表现 。 我 们 使 用 60 和 120 月 利率 ( month rate) 去 预测 从 1952 年 到 1991 年 间 的 
1.2.3.6.12 和 24 月 利率 。 样 本 大 小 为 n=480。 长 期 利率 应 包含 短期 利率 的 所 
有 信息 。 

正如 第 7 章 讨论 的 ,我 们 首先 使 用 Y, - E(Y,|W,) Xt X, - (XX,|W,) 进行 回 


归来 估计 (yi,y2)',， 其 中 对 s = 0,1,E(Y,,|W.) = Y YKV, a - 


W,)/h)/D KW, - Wi)/h),  E(X |W) = > XK((W,, - 
W.,)/h)/ > KOW, = AD) ,其 中 WW,， n Yia - BX, "s (71,7;)' 表 


RY y) 的 最 终 的 半 参 数 估 计量 ,Li 和 Wooldridge(2002) 证 明了 是 Vn 一 致 的 
且 具 有 渐 近 正 态 分 布 。 我们 用 0(W,,) = E(Y|WwW,,) -NE(Y,|w,,) - 
YE(X, a |W ) 来 估计 0(W,.,) o 
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基于 半 参 数 误差 修正 模型 的 了 的 预测 值 是 Y, emi = 0(W,.,) + Y, + 
X, 1 闪 ，, 且 其 均 方 预测 误差 是 my Gauni - Y.) ,其 中 心 =400 En, =80(n 
=n, +n, =480) 。 我 们 使 用 一 个 正 态 核 ,平滑 参数 是 通过 最 小 二 乘 交错 鉴定 法 
选择 的 。 

为 了 进行 比较 ,我 们 也 计算 由 六 jw = 应 + @ W... +Y, yi tX, y; 给 出 的 
Y, H — We i R E POME, HEP, G ,Yi ,7 ) 是 (ayyi y) 的 普通 最 小 二 乘 
估计 量 ,使 用 的 数据 为 1 到 :-1 期 。 这 个 线性 模型 的 预测 误差 是 Y. - Ý, a E 


均 方 预测 误差 是 ni' Y (iw - Y,) 。 


t=m +l 


如 表 18.1 所 示 ,对 于 使 用 10 年 利率 的 半 参 数 误差 修正 模型 ,一 期 提前 预 
测 均 方 误 差 总 是 比 线性 模型 要 好 ,因此 半 参 数 误 差 修 正 模型 提供 了 一 个 改进 的 
短期 率 的 均 方 误差 预测 值 。 这 说 明 在 误差 修正 项 中 有 非 线 性 调整 。 


表 18.1 使 用 10 年 利率 的 平均 预测 均 方 误差 





18.9 非 平稳 数据 的 非 参数 估计 


我 们 所 知道 的 唯一 涉及 非 平稳 数据 的 非 参 数 渐 近 分 析 的 文献 有 Phillips 和 
Park(1998) ,Juhl(2005) ,以 及 Cai 和 Li(2006 ) Phillips 和 Park 很 显然 是 处 理 
非 平稳 数据 回归 函数 的 非 参 数 估计 的 第 一 篇 文献 ,而 Juhl 考虑 了 非 平稳 数据 的 
回归 函数 的 半 参 数 估计 。Philips 和 Park 以 及 Juhl 都 考虑 了 一 种 情形 , 即 真实 
DGP 是 一 个 线性 单位 根 过 程 。 

Cai 和 Li(2006) 考 虑 了 一 个 以 下 形式 的 变 系 数 半 参数 回归 模型 : 

Y, = X, B(Z,) + u, (18.61) 
其 中 Y, #fll u, 是 标量 变量 ,X, = (X... Xo) ' 是 维度 为 p 的 协 方差 向 量 , E. Z, = 
(2Z,,…,Z,,) 是 一 个 维度 为 g 的 协 方差 ( 行 ) 向 量 。Cai 和 Li 讨论 了 不 同 的 情 
形 , 包 括 (i)X, 是 非 平稳 的 ,Z, 是 平稳 的 , (u) X, 是 平稳 的 ,Z, 是 非 平稳 的 。 世 
要 么 是 平稳 的 ,要 么 是 非 平稳 的 。 考 虑 以 下 这 种 情形 , 即 X, 是 非 平稳 的 ,而 Z, 
和 也 是 平稳 的 。 在 这 种 情形 下 ,模型 (18. 61 ) 描 述 了 XX, 的 不 同 部 分 之 间 的 非 线 
性 协 整 关系 。 其 估计 方法 与 第 9 章 中 讨论 的 方法 是 一 样 的 ( 见 9.3.1 节 )。 然 
而 , 渐 近 理论 和 独立 数据 或 者 平稳 数据 情形 是 有 实质 上 不 同 的 。 对 非 平稳 数据 
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非 参数 估计 感 兴趣 的 读者 可 以 参考 Phillips 和 Park, Juhl, 以 及 Cai 和 Li 的 进 一 
步 细节 研究 。 


18.10 证 HJ 


18.10.1 公式 (18.9) 的 证 明 


证 明 : 更 多 细节 的 计算 表明 f(x) 的 方差 首 项 是 和 独立 同 分 布 数据 情形 一 样 
的 。 使 用 (见习 题 18.1) 


y $ cov( Kp ,., K, ,.) 


tæl s> 


n-1 n-t 
È: f cov( K, ix sR entn ) 


> D (1 —j/n)eov(K,,,,K,,.,.,) 


j=1 


可 得 (H, = h, h.) 
var( (nH,) 2 f(x) ) 


= (H,/n) | X var(k,..) + 2 2 cov( K, K, a 


= (H /n) [n var( Kix) + mS (i = Təeov(K...,K.....) | 


j=1 
= H var( Kp.) + 2H, > [ = + ) cov( K, i Kaitsja) 
j=1 


=. h. + Jasa (18.62) 
由 式 (18.5) 可 得 
J = «kf(x) +O( h1’) (18.63) 


% 其 中 k= fk (o) do (e= [k (6)'a6e), + z, = CHG] JE B; 的 整数 


部 分 , 且 利用 > - > ， 我 们 可 以 把 刀 , 写 为 


Ta 


H, Y, 3 - L ) cov( K, n l A 


= Joza + Jaa (18. 64) 
S fiau XXK ERX, X, a) WKE 3 6 EPS 3 nis 
|eov(K,,,, Ki ts) | 三 |E[K, ,, ia | 
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< g | E3 Xi 


= | [K Ca, - x) /h)K,( (xi = x) /hf (x sx) deda, s 


= [ñas (xx) [K(u)K(v)dudv + O( |h |) ] 


=[f.a,(z,x) +O(|h|)]=0(1) 


因此 , 
L, = HO(m,) = O(m, H) = o(1) (18.65) 


因为 r, = 0(8- 2 ) 。 利 用 p 混 合 的 性 质 可 得 
cov(K.,K,,,.) Sp()var(K,,) =p(j)H;'[/(x) | ° (v) dv + 0( |A|) ] 
因此 ， 

Ja < [f(x) [K (6) do + (1 X p0) —0 (18.66) 


由 于 Y p0) 0.83 z. 
结合 式 (18. 62) 和 (18. 66) ,我 们 已 经 证 明 
var( (nh oh )'2f(x)) = kf(x) +0(1) 
在 此 完成 了 证 明 。 口 
18.10.2 定理 18.2 的 证 明 


证 明 :我 们 采用 Castellana 和 Leadbetter( 1986 ) 以 及 Masry( 1996a ) 的 证 明 。 
记 f(x) -f(x) =f(z) - E(f(x)) +E(f(x)) -f(x)。 我 们 已 经 证 明 f(x) 的 偏 
误 首 项 和 方差 首 项 与 独立 数据 情形 下 是 一 样 的 ( 见 式 (18.3) 和 (18. 62) ) 。 为 
了 证 明 渐 近 正 态 结果 ,我 们 首先 引入 某 些 表示 法 。 

$ Z = H [K(X,,x) - E(K,(X,,x))], 且 令 W, = Y Z,,, 那 么 


(nH,) [f(x) - E(f(z))] =n Y Z,, = nw, 

我 们 使 用 “大 一 小 区 块 " 理 论 。 将 集合 11,…,n| 分 成 2k +1 AFE (k = 
k(n) ) ,其 中 大 区 块 大 小 为 a=a, ,小 区 块 大 小 为 6=b,, 其 中 k=hk, =[n/(a, + 
b,)]([， JER ° 的 整数 部 分 ) 。 

我 们 引入 当 n—= 时 ,b, 一 %w H a, e ,使 得 

b,/a, =0(1), a, = o((nH,)'2), —p(b.) =o(1) (18.67) 
公式 (18.67) 只 对 p(*) 施 加 了 温和 的 条 件 。 比 如 ,我 们 可 以 选择 a, = 
[ (nH,)'?/Iln(n)],b, =a,/ln(n), 所 以 ,公式 (18.67) 的 前 两 个 条 件 成 立 。 如 果 
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用 最 优 平滑 法 进一步 选择 六 , 即 太 =0O(2 tt) ,那么 ,使 得 式 (18.67) 的 第 三 

个 条 件 成 立 的 充分 条 件 是 当 r 一 o 时 ,r…”“p(r) 一 0, 这 个 条 件 比 用 来 证 明 收 敛 

速度 结果 (定理 18.1) 的 条 件 p(r) =O(r t ) 稍 强 (对 任意 小 的 e>0)。 
定义 随机 变量 


jla+b)+a-l 

n= > Z0 SjSsk-1 (18. 68) 
i=j(a+b) 
(+1)(a+b)—1 


é; = Z. 0 =<j=<k-1 (18.69) 


iajla+bh) +a 


É, = 5 Z,., | (18.70) 


i=k(a+b) 
n 具有 a, 的 较 大 长 度 ,t; RA b, BRUNKE, H é 具有 小 于 a, 的 长 度 。 
570 iu 
W, = F ig Fi + ë, = W,, + W,, + W,, 
显然 ,W, 是 W, 的 首 项 ,因为 到 ,包含 ka, 项 ,而 了 ,包含 及 六, 了 只 包含 
G, 项 。 
下 面 我 们 将 证 明 
n 'E[W; ] = o(1),n FE ] = o(1) (18.71) 
这 意味 着 m 2 W, =0,(1) H n "2 W, =o(1)。 


对 于 W, (注意 exp( uW.) = || exp(itm,))(i = V=-1) ,我 们 将 证 明 对 每 


一 个 了 >0， 
| EL exp( itW,)] 一 [I #lexp(im;) ] — 0 (18.72) 
ES z 
让 (18.73) 
ELI Wil > EQlx)/ yn] — 0 (18.74) 


公式 (18.72) 说 明 下, 的 特征 函数 与 思 独立 于 7 的 过 程 是 渐 近 相同 的 ,这 就 
意味 着 在 Wa A |a 的 加 总 是 浙 近 独立 的 。 公 式 (18.73) 和 (18.74) 是 关于 W, 
在 独立 条 件 下 的 渐 近 正 态 性 的 Lindeberg-Feller 条 件 。 于 是 , 式 (18. 72) 和 式 


(18.74) 意 味 着 Vi =sN(0,OQ(z) ) 。 
我 们 现在 证 明 这 些 结论 。 首 先 考 虑 W, 
E[W;.] = var| > ¿| = > var(Z;) + > 3 cov(¿,,£;) 
= F,, +F (18.75) 
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在 当中 有 上 项 ,利用 与 推导 式 (18. 62) 同样 的 论证 过 程 , 可 得 


var(£,) = b. var( Z, ,) + 2b, >` (1 -—b”')cov(Z, ,,Z,,) 
= b N(x)[1 + O(b,H,)] = b,O(<x)[1 +o(1)] (18.76) 
因此 ,利用 式 (18.75) 和 式 (18.76) 可 知 
F, = k,b,N(x)[1 +0(1)] = O(k b.) = o(n) (18.77) 
AA k (a, +b,) =O(n)#1b, =o(a,) BRE kb, =o(n). 
同样 ,可 得 


IF, | <2 | cov(Z i, .) | < 2n | cov(Z ZE 10) | 
2 -il "2 al n,l +j 
¿= es 


iy =0 iy=ij+a, 


< 2nvar( Z, ,) > pC) = o(n) (18.78) 


因为 var(Z,,) = Q(x) +o(1) = 0(1) HY pG) 一 0 因为 a, 一 %。 

因此 ,nm 'E[ W; ] =o(1) ,这 意味 着 m W, =o (1). 

对 于 W, ,显然 ,的 阶 数 小 于 W. WEEK AA W. 2: T ak, 加 总 ,而 W, 
加 总 不 多 于 a, 项 。 我 们 下 面 将 证 明 YnW, = 0, (1) ,这 意味 着 JnW,, =o,(1)。 
我 们 将 使 用 下 面 的 关于 p 混合 过 程 的 不 等 式 。 

引 理 18.2 < V; | >=" + Vç 为 a 混合 随机 变量 ,分 别 属于 FW,… ,了 /其 中 
ISi Sj <i < <j Sn, in -六 ET, 且 | 也 | 三 1J=1,…,J, 那 么 


J J 
[ELT] vJ) - II ELVI |< 160 - 1)a(7) 


证 明 : 参 见 Volkonskii 和 Rozanov ( 1959 ) sk # Hall 和 Heyde(1980 ,定理 
A.5)。 口 

上 面 的 结论 对 于 p\B6 和 中 混合 过 程 都 成 立 ,因为 (7) 不 大 于 其 他 任意 一 
个 混合 系数 。 


应 用 引 理 18.2 F exp(itW,) = [| eep(iay )( 其 中 V, = exp(itm,)), 由 条 
件 (18. 67) 可 得 各 
|E[exp(itW,,)] - 5 E[esp(im) |< Ckpla,) = 0( 2)p(b,) = o(1) 
我 们 可 以 选择 å, = (nH .)'?2/In (n), b, = (nH,)'2/[I(n) ], h = 
O(n 0)( 最 优 平滑 ) ,所 以 0(F)plb,) =o(1) 的 一 个 充分 条 件 是 当 ro 


时 ,rp(7) 一 0。 
由 平稳 性 条 件 和 推导 式 (18.76) 同 样 的 论证 可 得 
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m mmn = ax x x Yi 
Š s R w A Ñ & y 


var(n;) = var(7o) =a, N(x)[1 +o(1)] 
因此 ， 


TD El] P EAA) +a 
因为 ka,/n 一 1( 因为 b/a, 0) 。 同 样 可 得 


3 - a| K (ee)] < CH"? 


因为 天 (') 是 有 界 的 。 这 意味 着 由 式 (18. 68) 可 得 


-172 
| fi | = H. 











max lon] /Vn < Ca,/Z(nH,)!'? — 0 (18.79) 

因此 当 n 很 大 时 , 式 (18.79) 意 味 着 集合 | |n| >A) n] 为 一 个 空 集 ,于 

是 式 (18.74) 成 立 。 在 此 完成 了 定理 18.2 的 证 明 。 口 
18.11 J 题 


SET, 1 证 明 
a , Ky sa 2) = a5 0 - j/n)cov(K,, lz y Pa 


tal j=l 


573 习题 18.2 ”证 明 式 (18. 14), 即 证 明 
var[mi(x)] = O( | h ||? (nH,) >) 
习题 18.3 ”使 用 引 理 18. 1 ,证 明 
fix) -f(x) = O,( | h |? + (nB,)"'2) 
对 于 一 个 平稳 有 混合 过 程 ,其 混合 系数 满足 
DA < œ 

提示 : 偏 误 的 计 算 和 独立 数据 情形 是 一 样 的 。 用 引 理 18. 1, 可 得 

[cov(K,.,K,..)| = |EI[K,, - ECK, a) IUK, - E(K,,.)]| |< 0 +4M/ 19 
可 以 进一步 证 明 

M. —E[(K 

那么 ， 


| >` >` cov(K,,, ,K,.,.) | < 4M Y SB (si) 
t st 了 


Kak r] = f (Kaa Ka) (z, zT) da, dx, < CH;” 


h,tx 


< 4M Sn p (yas 
j=1 


s Oiana) a o(2H;') 
因为 5<1。 剩 下 的 步骤 显而易见 
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“面板 "是 通过 在 了 7 个 连续 时 期 对 N 个 横 截 面 单元 
抽取 观测 值 所 形成 的 一 个 样本 ,得 到 形 如 1Y ZI, 
的 一 个 数据 集 。 因 此 一 个 面板 简单 地 就 是 N 个 个 体 时 
间 序 列 的 一 个 结合 ,时间 序列 可 能 很 短 ( “小 的 7”) 或 者 
很 长 (“大 的 7”)。 例 如 ,美国 收入 动态 面板 研究 (Panel 
Study of Income Dynamics, PSID)? 了 是 一 个 全 国 代表 性 纵 
向 研究 ,包括 从 1968 年 开始 的 超过 7 000 户 的 美国 家 
庭 ,而 加 拿 大 的 劳动 和 收入 动态 调查 (Survey of Labonr 
and Income Dynamics ,SLID) 四 是 一 个 由 加 拿 大 统计 局 实 
施 的 纵向 家 庭 调 查 ,统计 局 跟踪 了 大 约 15 000 户 加 拿 大 
代表 性 家 庭 样 本 达 6 年 之 久 , 最早 的 面板 开始 于 1993 
年 。 同 美国 相对 应 的 ,SLID 面板 被 设计 用 来 捕捉 随 着 时 
间 的 推移 个 体 和 家 庭 经 济 福利 的 变化 以 及 福利 的 决定 
因素 。 

对 面板 数据 进行 建 模 时 ,会 产生 许多 有 趣 的 统计 问 
题 ,包括 如 何 模型 化 横 截 面 效应 ( 即 是 否 考虑 不 可 观测 
的 异 方差 性 问题 ) ,是 否 汇 总 数据 ,以 及 如 何 模 型 化 潜在 
的 依赖 等 。 已 经 存在 很 多 关于 面板 数据 模型 的 优秀 文 
献 ,我 们 建议 感 兴趣 的 读者 参见 Arellano(2003 ) 的 相关 
文章 进行 全 面 的 了 解 。 在 本 章 ,我 们 考虑 许多 已 经 被 提 
出 来 的 对 面板 数据 建 模 的 灵活 方法 。 

我 们 将 关注 两 种 类 型 的 半 参 数 和 非 参 数 模型 : 
(i) 部 分 线性 半 参 数 面板 数据 模型 和 完全 非 参 数 面板 数 
据 模 型 , (ii) 具 有 未 知 误差 分 布 的 面板 离散 选择 模型 和 


© ÆR http://psidonline. isr. umich. edu/ ; 
© ÆR http://www. statcan. ca/English/sdda/3889. htm, 
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审查 回归 模型 。 我 们 将 泄 盖 随 机 效应 和 固定 效应 的 非 参 数 面板 数据 模型 。 

在 本 章 ,我们 令 下 标 i=1,2,…,N 代表 个 人 ,4=1,2,…,7 表 示 时 间 。 通 
常 ,了 相对 于 六 是 较 小 的 。 为 了 论述 的 清晰 ,我 们 将 讨论 限定 于 平衡 面板 ( 即 了 
没有 随 着 i 而 改变 ) 。 但 是 ,我 们 得 到 的 结果 很 容易 扩展 到 非 平衡 面板 的 情况 。 

我 们 也 将 在 19.8 节 看 到 一 个 如 下 形式 的 部 分 线性 模型 能 够 很 自然 地 出 现 
在 面板 数据 设 定 中 : 

Y = Xua + g(Z.) + (19.1) 

对 于 面板 数据 模型 一 个 流行 的 误差 设 定 是 所 谓 的 单 向 误差 成 分 模型 (one- 
way error component model) ,其 误差 过 程 给 定 为 u, =y, +v, EP u, 是 (随机 或 
固定 的 ) 个 体 效 应 ,>, 是 异 质 误差 项 (idiosyncratic error term) v, 通常 被 假定 为 
关于 下 标 和 上 都 成 立 的 一 个 独立 过 程 。 对 于 随机 效应 模型 ,个体 效应 几 的 存 
在 使 得 误差 项 v, 序 列 相关 。 在 这 种 情况 下 2 Z ,包括 一 个 滞后 的 因 变量 , 如 
了，,, 则 天 (ww,12,) 关 0, 并 且 为 了 估计 式 (19. 1) 得 采用 一 些 工具 变量 (IV) 法 
(参见 第 16 章 对 于 非 参 数 和 半 参 数 工具 变量 方法 的 一 个 综述 ) 。 然 而 , 若 式 
(19.1) 中 的 误差 w, 是 序列 不 相关 的 ,例如 , 若 v, 是 一 个 蒜 差 分 过 程 ( 它 排 除了 


一 个 误差 成 分 模型 ) ,接着 则 可 以 如 第 18 章 讨论 过 的 那样 [将 > 替换 为 


2. 2. ) 佑 计 式 (19.1)。 因 此 ,在 实践 中 ,研究 者 可 能 想 要 首先 检验 零 序 列 相 


关 或 者 是 检验 没有 个 体 效 应 的 存在 ,而 后 才 决定 误差 成 分 模型 是 否 适 合 于 手头 
上 的 数据 。 


19.1 面板 数据 模型 的 非 参数 估计 :忽略 方差 结构 


一 般 的 非 参 数 面板 数据 模型 给 定 为 : 
Y =g(Z,) +u, i=1,2,-- N, t = 1,2,-. T (19.2) 
其 中 ,为 了 表述 的 简洁 ,我 们 仅仅 考虑 Z 是 一 个 9 维 的 连续 随机 向 量 的 情况 。 

我 们 假定 数据 关于 下 标 i 是 独立 的 。 若 N 较 大 ,7 较 小 , 则 没 必要 假定 数据 
关于 /上 是 平稳 的 。 然 而 , 若 了 很 大 , 则 通常 需要 假定 数据 是 平稳 的 ,并 且 服从 某 
种 类 型 的 混合 过 程 (参见 第 18 章 对 于 各 种 混合 过 程 的 定义 ) 。 

一 个 标准 的 方法 是 引入 一 个 个 体 效应 六 。 我 们 首先 考虑 随机 个 体 效 应 的 
情况 ;然而 ,在 本 节 , 我 们 将 保留 Z, 是 严格 外 生 的 假定 , 即 对 所 有 1,E(u12,， 
Z,,…,Z,,) =0。 在 这 个 假定 下 ,可 以 使 用 一 个 标准 的 非 参 数 方法 来 估计 
g(，) ,比如 局 部 常数 法 , 即 
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> W 区 "z $ 总 w % 


g(z) = (19.3) 


HPK, p = [| hk((Z,, =- 2,)/h,)。 
t=1 


如 果 对 于 一 个 固定 的 i,u, 是 一 个 满足 在 第 18 章 中 给 定 的 条 件 的 混合 过 
程 , 则 g(x) 的 浙 近 分 布 与 独立 数据 情形 下 是 一 样 的 。 下 面 我 们 考虑 一 个 单 向 
误差 成 分 模型 的 情形 
u. = j. + Pa 


HoP u, EMO, oi), n EEA RE B 混合 过 程 。 我 们 也 


IgE X 是 一 个 (平稳 ) 混合 过 程 ,其 混合 系数 满足 Yp? < wm 。 那 么 ,在 类 


似 于 我 们 第 2 章 2. 1 节 介绍 过 的 施加 于 &( MA ) 上 的 平滑 性 条 件 下 ,我 
们 有 下 面 的 结论 : 

定理 19.1 M NTH, NTH — (H =(h h ) )。 同 样 假定 如 下 
的 条 件 之 一 成 立 :(i) N 较 大 ,7 较 小 ;(i) NA TERK, LM To 时 ,TH — 
0 ,那么 


/NTH, | è) = s(sy = Y B,C) | S a(o, K'o getal) (19.4) 


f(z) 

其 中 B(z) 与 2.1 节 中 定义 的 相同 。 

定理 19. 1 的 证 明 在 19. 10 节 中 给 出 。 

注意 当 了 很 小 时 , 没 必 要 对 (2 ,v,) 施 加 混合 条 件 。 当 7 很 大 时 ,我 们 做 出 
额外 的 假定 , 当 7 一 % 时 ,TH 一 0。 这 个 条 件 被 用 来 控制 协 方差 var(&(z) ) (A 
为 的 存在 ) 。 

定理 19. 1 没有 包含 N 较 小 .了 较 大 的 情形 ,因为 单 向 (随机 效应 ) 误差 成 分 
模型 在 这 种 设 定 下 不 是 一 个 合理 的 方法 。 当 7T 较 大 、N 较 小 时 ,可 以 不 用 汇合 
( pool) 数据 ,因为 对 于 每 一 个 个 体 单 元 都 存在 一 个 较 长 的 时 间 序 列 。 在 这 种 情 
况 下 ,对 每 个 个 体 单 元 i 可 以 使 用 对 每 个 个 体 单元 可 用 的 7 了 个 个 体 时 间 序 列 来 
简单 地 估计 zg (2,) ,最 终 估 计量 的 渐 近 分 布 在 第 18 章 中 讨论 过 。 为 了 允许 数 
据 实 际 上 是 可 汇合 的 这 种 可 能 性 ,可 以 引入 一 个 无 序 离散 变量 ,比如 对 i =1,2,… 
N,6 =i, 使 用 第 4 章 介 绍 过 的 混合 离散 和 连续 核 方 法 来 非 参 数 地 估计 
E(Y 12,,6) =zgz(Z ,5 )。 令 表示 与 5 有 关 的 交错 鉴定 平滑 参数 , 则 若 À = 
l ,得 到 g(Z , ô) =g(2,), 并 且 因 此 数据 在 g(， ) 的 最 终 估计 中 是 可 汇合 的 。 
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另 一 方面 , 若 A =0( 或 者 接近 于 0) , 则 对 第 i 个 个 体 单元 仅仅 使 用 时 间 序 列 就 
可 以 有 效 地 估计 每 个 g e )。 最 后 ,车 0<A<1, 可 以 解释 为 数据 是 部 分 可 汇 
合 的 情况 。 

我 们 也 可 以 应 用 Baltagi, Hidalgo 和 Li(1996 ) 以 及 Lavergne(2001 ) 提出 的 
非 参 数 可 汇合 性 检验 来 检验 数据 是 否 是 可 汇合 的 。 


19.2 Wang 的 有 效 非 参数 面板 数据 估计 量 


Wang(2003 ) 考虑 了 如 下 的 非 参数 面板 数据 回归 模型 : 
二 (19.5) 

其 中 &(“，) 是 一 个 未 知 的 平滑 函数 ,2 = (2Z,,,…,2,,) 是 g 维 的 ,所 有 其 他 变 
量 都 是 标量 ,并 且 E(u |Z iZ) =0。 

在 这 一 节 ,我 们 将 仅仅 考虑 N 3 K .T 较 小 的 情况 ,并 且 我 们 假定 数据 关于 
i 是 独立 的 ,关于 上 是 严格 平稳 的 。 接 下 来 ,我 们 令 & = (ussu) ’ Z = 
cov(u |Z >" ,Z„)o Wang(2003 ) 提 出 了 一 种 新 的 方法 来 估计 g( - ), X #h Jy 
法 利用 了 包含 在 中 的 信息 。 我 们 将 首先 讨论 对 于 已 知 3 的 估计 方法 ,然后 讨 
W u 是 单 向 误差 成 分 结构 时 估计 3 的 情形 。 

Wang(2003 ) 建议 对 于 个 体 i 通 过 式 (19.6) 来 选择 准则 函数 


LC) = L(Y,,8,) =- FLY, -e's UY, — g. (19.6) 


其 中 Y, = (TY, syd s 8 = (g, — > Bi =g(Z,). 
RIEL, „=AL  )/óg,, Lin =F L )/(68,08,)。 从 式 (19.6) 中 
我 们 得 到 


4 


£. = eX [YY-gl=>o(r - g(Z,)) (19.7) 


Hp c 是 一 个 第 t 个 元 素 等 于 1、 所 有 其 他 元 素 等 于 0 的 7x1 维 向 量 ,其 中 0 
k: X “的 第 (1,s) 个 元 素 。 同 样 ,我 们 有 
£. = e Ze = — o" (19.8) 


t tsg 


我 们 将 最 大 化 一 个 加 权 核 的 目标 函数 。 定 义 乘积 核 
K (o) = |] h, kloh) 
其 中 ENEAK 2 /(， ) 表 示 Z 的 概率 密度 函数 。 定 义 G (z, 
h) =(1,(Z -Z,)/h, s, (Z, -Z,)/h )' QE G, (z,h)Æ&(q +1) xl 维 )， 
Eg” (z) =ag(z)/az 是 5(。) 关 于 z 的 一 阶 偏 导数 ( 是 gx1 维 )。Wang 
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(2003 ) 建 议 通 过 a (z) 来 估计 未 知 函 数 g(z) ,其 中 a (z) 和 a (z) 是 以 下 一 阶 
条 件 的 解 


0 = XY K,(Z,,)G,(z,h) Ll YB(Za) ,aos) 


+ [(2, -D/h] a (2),. ,6(2,,)) (19.9) 

其 中 &(Z,) ,s 天 :是 g(2.) 的 初始 估计 量 , 且 [(Z. -z)/h)] = ((Z,, -Z )/h, ==: 
(Z, -2Z,)/h,)。 注 意 式 (19.9) 是 一 个 (g +1) x1 维 的 方程 ,从 中 我 们 求解 得 
(gq +1) 个 参数 a (z) (一 个 标量 ) 及 a (z) (一 个 gx1l 向 量 ) ,它们 分 别 估计 了 
g(z) 和 gpg" (z), 

一 个 迭代 过 程 

方程 (19.9) 上 暗示 了 如 下 的 迭代 估计 过 程 。 假 定 在 第 [1-1] 步 g(， ) 的 当 
前 估计 是 &8.,,,(* )。 我 们 使 用 &.,(z) 来 表示 g(z) 的 下 一 阶段 估计 量 ,其 中 
È ENP C (z) 是 如 下 方程 的 解 (通过 式 (19.7) 和 (19.9) ) : 


N T 
0= > > K,(Z,,z)G,(z,h) 
isl itsl 
X LY,B Za) t Êr (z) 


+[(Z, -z)/h]'ë0) (2) ,6 (Z,)) (19.10) 


=: > > K,(Z,,z)G,(z,h) | 外 a TNE a, 


+o"(Y, - &,(z) - [(Z, -z)/h]'à,(2)) | (19. 11) 
方程 (19. 10) $F é, (z) ft EO (z) 是 线性 的 ,并 且 导 至 
ĉn (z) P 
j |- D (z) D, (z) (19.12) 
ĉin (2) 


其 中 
D,(2) = X Ð K,(Z,,.)o"G,(z,h)G,(z,h) 


D,(Z) “ 2. K, (Z.,z)G (z,h) 


F 
x [ey, + > o“ (Y, “u. KS.) 
swt 


在 g(， ) 估 计 的 下 一 阶段 ,方程 (19. 12) 得 到 &,(z), 而 8 (z) Jš 
g™ (z) =9g(z)/Gz 的 下 一 步 估 计 。 直 到 收敛 ,我 们 获得 g(z) 的 最 后 估计 le) 。 
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m r = w a 4 = ke s 


上 面 的 迭代 过 程 要 求 5&(，) 的 一 个 初始 估计 。 可 以 选择 标准 局 部 常数 或 
者 忽略 荆 的 方差 一 协 方差 结构 的 局 部 线性 估计 。 因 为 初始 估计 已 经 是 5(…) 
的 一 个 一 致 估计 量 ,收敛 通常 在 几 步 之 后 就 会 达到 。 
定义 
Q(z) =- f(z) > ELL, (°) | Z, = z] = f(z) 2 E[e | Z =z] 
(19. 13) 
其 中 第 二 个 等 式 由 式 (19. 8 ) 得 到 。 
同样 ,对 r=1,…,g, 定 义 b,(z) 是 由 如 下 式 子 决定 的 一 个 有 界 平滑 函数 
b (z) = “g (2) + {2(z) f(z) E E| 2 b, (Z) | Z, = z| 
(19. 14) 
其 中 K, = [kode g„(z) = 8? g(z)/Əz 。 
在 标准 正则 性 条 件 下 ,例如 g(， ) 是 二 次 连续 可 微 的 , Wang( 2003 ) 证 明 
8(z) - g(z) = 本 +v (z) + o, | $ h? + (Nh, ) | 
(19. 15) 
其 中 


N 


s (2) = 0(z [ES S K, (Z2) 5u 


| (19.16) 
很 显然 , E(v,(Z)) =0, 可 以 证 明 v,(Z) 的 渐 近 方差 是 (见习 题 19.2) 


var(v,(z)) = O EES +o(Nh 有 ) (19. 17) 


其 中 k = |#(v)av。 
假定 六 < N "O AARS. 14) M19. 17) ,可 以 证 明 
COAG -ga = X Kt, (2) ) “No, =S) (19.18) 
其 中 02(2Z) 在 式 (19. 13 ) 中 被 定义 。 
Wang(2003) 证 明 一 次 迭代 (once-iterated ) 估 计量 与 完全 迭代 (fully iterated) 


估计 量 有 相同 的 渐 近 行为 。 她 的 模拟 也 支持 了 这 个 结论 ,所 以 在 实践 中 可 以 选 
择 仅仅 迭代 一 次 。 在 这 种 情况 下 , 偏 误 首 项 有 一 个 闭合 形式 的 表达 式 : 


b.(2) = 78,(2) + Q(z) f(z) >| Sael JIZ = 





(19.19) 
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接 下 来 ,我们 考虑 的 一 个 特定 形式 。 我 们 假定 u 服从 一 个 单 向 误差 成 分 
结构 , 即 u =u +v,, 其 中 jy, 是 独立 同 分 布 (0,o, ) ,v, 是 独立 同 分 布 (0,0,)。 
我 们 进一步 假定 4 是 条 件 同 方差 的 。 因 此 , Z= cov(w12,,*…,2,,) =cov(u,) 
给 定 为 : 

EF = ol, + oee, = o [I, 一 上 + o], (19. 20) 
其 中 o = To， +o, 1, 是 一 个 Tx7T 维 的 单位 矩阵 , e, 是 一 个 7Tx1 维 的 1 的 列 
Hi, H. & =e,e/T, 很 容易 证 实 ( 参 见 Wansbeek 和 Kapteyn( 1982 ) ) 





z' = + 
MELO ) 关 于 g(。 ) 是 二 次 的 , C ,是 一 个 常数 : 
C. =- =- o" =- c, 
其 中 
1 l 1 (T=1)o +C 
Cd 
因此 ,我 们 有 


2(z) JO) 2 LP AU") | Z = z] = c T/(z) (19.21) 
注意 C， 同样 是 一 个 常数 : 


L=- Zt, 2-0" = 3 t 5 (19.22) 
因此 ,我 们 有 加 
h (sy s Zela) - = -X X Ez.) IZ =z] (19.23) 
(Nh h V PECO 的 斯 近 方差 被 给 出 为 
avarl (Nh eh) Bs) 1 = a 
Kz. m, 


TMLT -l)o? + o°] 


K'o 
w S 
Fa + :| (19.24) 


其 中 p = 
g(z) 的 传统 核 估 计量 忽略 了 三 的 方差 结构 ,例如 ,由 下 式 给 定 的 局 部 常数 
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估计 : 
TEREA 
glz) = = C (19.25) 
> > K,(2., ,2) 
有 被 下 式 给 定 的 渐 近 方差 2 
RE Q Ei 91 Ren 19.26 
avar[ (Nh ` ,) z(z)] -一 Ta T(G) | +p] (19.26) 
相对 渐 近 方差 被 给 定 为 


avar[ (Nh +h ) 8(z)] +7-1)p+1 < 1 (19.27) 
avar[ (Nh h )'?g(z)] ü l +p i 


hp =, 当 p 或 者 7 增加 时 ,以 上 比值 变 小 。 例 如 ,对 p=1, 式 (19.27) 变 
为 (T+1)/(27) ,因为 7>=2, 所 以 其 值 在 [3/4,1/2)。 对 T=2 H p 为 任意 的 情 
况 , 式 (19.27) 变 为 1 -p*/(1+p)*, 因 为 pe (0, += ) ,所 以 其 值 在 (0,1)。 对 
于 较 大 的 p 值 ,使 用 &(z) 蔡 代 5(z) 得 到 的 效率 增进 可 能 很 大 。 


在 实践 中 , o 和 o? 是 未 知 的 , 且 需 要 被 估计 。 可 以 证 明 ó = — 


N(T-1) 
5 (1, -J,)ù, 8 o? ARH ó: = TY 0 a, 是 的 一 致 估 
HHP ú, = (â, Âp)’, ü. =Y. -区 (Z.)，5(Z,) 是 在 式 (19.25) 中 给 出 的 
忽略 了 结构 的 g(Z,) 的 初始 估计 。 事实 上 , ó? -o = 0(N-2) ,0 -o = 
0,(N 2)。 定 义 "为 3 ', 把 go? fl o? 替换 为 9: 和 ,我 们 得 到 g(z) 的 一 
个 可 行 估计 量 。 因 为 3 X =0,(N 2), 所 以 ,最 终 估 计量 的 渐 近 分 布 与 
使 用 真正 5' 的 估计 量 是 一 样 的 ,因为 全 ' -了 -= 0 (N) ,其 收敛 于 零 的 速 
度 快 于 非 参 数 估计 &(z) 。 


19.3 具有 随机 效应 的 部 分 线性 模型 


在 本 节 ,我 们 考虑 一 个 具有 随机 效应 的 半 参 数 部 分 线性 面板 数据 回归 
模型 : 


O 局 部 线性 估计 量 与 局 部 常数 核 估计 量 有 相同 的 渐 近 方 差 。 具 体 参 见 第 2 章 。 
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K- = X'a + g(Z.,) +g. * P; i = l,2, N, t s= Liggi 


(19. 28) 
Jeep X A d x1 维 的 ,而 其 他 变量 与 在 19.2 节 中 定义 的 相同 。 
个 体 的 准则 函数 被 修正 为 
L) = LCY, X a,g,) =- +[Y, - Xa - g,]'37[Y, - X'a = g,] 
(19.29) 


Hp X = (X Xr) o RL, u =I L, yl )/98,, 那 么 我 们 有 
Liu = 一 c y"! [ Y. - X'a - g,] 

此 时 ,假定 a 是 已 知 的 , 则 我 们 可 以 像 19. 2 节 那 样 简单 地 估计 z( - ) ,但 
需 将 出 现 了 的 地 方 换 成 Y -8'a。 我 们 用 &(z,a) 来 表示 相应 的 估计 量 。 令 
é (e ) 是 式 (19.12) 的 非 参 数 估 计量 (8.,(z) ) , 令 &8.,(， ) 是 式 (19. 12) 中 将 
Y, 替 换 成 X, 第 7 个 分 量 后 的 非 参 数 估 计量 。 更 进一步 地 , 令 z (z) = dg, ,(z) ,…， 
g, (2) ,有 那么 ,立即 很 明显 地 通过 平滑 子 (smoother) 的 线性 化 ,并 且 由 式 
(19.28) 

g(z,e) = 8 (z) - g,(z)'a (19.30) 
这 意味 着 
(za) = - á,(2) 

定义 有 (a) =Z, a), lZ sa)) 。 对 于 & (a), i=1,2,-- N 的 给 

定 估计 值 ,我 们 通过 最 大 化 下 式 估计 a: 


- Y [Y - X'a - ë (a)] X'[Y -Xa-é(a)] 


=- X [YY -Xa]'s"[Y -Xa] (19. 31) 
其 中 立 = (了) 了 = 了 -&(2,) , 且 X = (时 ,= = 
6E.(Z,)。 
因为 & (2Z,) fl £. (Z, ) 都 是 与 a 无 关 的 ,我 们 能 够 使 用 19. 2 节 讨 论 的 方 
法 来 得 到 &,(2Z,) Mg, (Z) o AEE (Z ) 和 &.(Z,) ,关于 a 最 大 化 式 
(19. 31) 得 到 一 个 关于 a 的 闭 式 解 : 
à = [| virt, (19. 32) 
我 们 有 
VN(a - a) 一 N(0,V) Kirt 
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# ea + m m x 三 r 


其 中 了 是 一 个 正定 矩阵 。 此 外 ,Y 的 一 个 一 致 估计 量 为 
六 = [六 x ži] 


Wang, Carroll 和 Lin (2005) #EBJJ ,在 了 到 达 a 的 一 个 规则 Vn 一 致 估计 量 的 
下 界 的 意义 上 , a 是 a 的 一 个 半 参 数 有 效 估计 量 。 
给 定 a ,我 们 重 写 式 (19. 28 ) 为 
Y -Xa=&g(Z)+ 人 + + X'(a - G) (19.33) 
方程 (19. 33) 暗示 我 们 能 够 使 用 在 19.2 节 讨 论 过 的 方法 来 估计 &(z) , 除 
了 我 们 需要 将 Y ERUR Y, -Xiao 
更 具体 地 ,对 于 g(，。 ) 的 当前 阶段 估计 量 (8,,,(* )) ,我 们 通过 下 式 估计 
g( - ) 的 下 一 阶段 估计 量 : 
g C) 
p 
其 中 D (z) (19. 12) 中 定义 的 相同 , 即 


j- D (z) 'D,(z,a) (19.34) 


N 了 


D (z) = > > K,(Z,,z)o"G (zi)G (z,h)' 
B. D,(z,a) 被 给 定 为 
D,(z,a) = > > K,(Z,,z)G,(z,h) 


T 
x [ey, + Fo -Ek - h, (Z) 


直到 收敛 ,我 们 得 到 &(z) 的 最 终 估计 量 (同时 得 到 &"”(z))。 因 为 a 关于 
a 是 VN 一 致 的 , &(z) 的 渐 近 分 布 与 19. 2 节 给 出 的 是 一 样 的 ( 即 与 a 已 知 的 情 
况 是 相同 的 ) 。 


19.4 具有 固定 效应 的 非 参 数 面 板 数据 模型 


考虑 如 下 具有 固定 效应 的 非 参 数 面板 数据 回归 模型 ; 
Y =&(Z)+A+，i=12…N,L=1,2,…,7T (19.35) 
其 中 g(。 ) 是 一 个 未 知 的 平滑 函数 ,六 , 是 固定 效应 ?, Z = (2,,,…,2,,) 是 g 
维 的 ,所 有 其 他 变量 是 标量 。 考 虑 N 较 大 .7 较 小 的 情况 ,我 们 假定 数据 关于 下 


中 固定 效应 被 认为 是 与 具有 未 知 相关 结构 的 Z;, 相 关 的 随机 误差 项 。 
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标 i 是 独立 的 ,并 且 我 们 假定 ,对 所 有 it 和 s,v IAF X 。 
我 们 进行 一 阶 差 分 来 消除 固定 效应 , 即 
Y -Y =g(2) -8(2) +v, -», i=1,2,-- N, t =2,3,--,T 
(19.36) 
我 们 考虑 > 的 两 种 情形 :(i) v, 是 具有 零 均值 和 有 限 ( 条 件 同 ) 方 差 o 的 独 
立 同 分 布 ;以 及 (ii) v, 具 有 零 均 值 且 可 能 存在 序列 相关 ,其 相关 结构 未 知 。 我 们 
讨论 g( . ) 的 两 种 非 参 数 估计 ,一 种 使 用 方差 结构 3, 另 一 种 忽略 了 的 结构 。 


19. 4.1 误差 方差 结构 已 知 
我 们 令 e =v, -v H £, = (eer) 。 在 本 节 我 们 假定 误差 > 是 条 
件 同方 差 , 则 王 =cov(e,12, ,…,Z,,) =cov(2,) ,并 且 被 给 定 为 
Z = e (L. Fitr) (19.37) 
其 中 1, 是 (7-1) x (7-1) 维 的 单位 矩阵 , e，, 是 一 个 (7T-1) xl 维 的 1 向 
量 。 很 容易 验证 
z' =r -Heel (19. 38) 


— e. e 
= I T-1 T-1 
Henderson, Carroll 和 Li( 2006 ) 建议 通过 为 个 体 半 选择 准则 酌 数 而 使 用 一 
种 剖面 似 然 方法 : 


E Ce) L(Y ,g,) => HF, - 8, thatal S IF, - ë, + Balra] 
(19.39) 


其 中 了， s. ( gk za r. =Y, =y Bi =g(Z,) „H g, = (gas Ey) 
定义 乘积 核 
K (0) = [Th kloh) 

其 中 上 (，) 是 一 个 一 元 核 函 数 。 令 /( - ) 表 示 AREER, S (Z -z)/ 
h) =[ (2Z,, -2.)/h,…,(Z, ,一 2,)/h )]' 且 定义 6G,(z,h)=(1,[(2Z,-z)/ 
h]')'(G, 是 (g+1) x1 维 ), 令 g'"(z) =əƏ g(z)/əz] g( - ) 关 于 Z 的 一 阶 偏 导 
数 (g+1 维 )。 我 们 通过 av,(z) 来 估计 未 知 函 数 g(z) ,其 中 a (z) 和 a (z) R ff 
了 下 面 的 一 阶 条 件 : 


N Z 


0 = 2, 2, K, (Z2) C, (2h) X Liu Yola) ao(z) 


isl ts 


+[(Z -z)/h]'a (z), ,&(Z,)) (19.40) 
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HPL p =L )/6g,。 当 szxt 时 ,L, ,中 的 变量 是 g(2,), 而 当 s=t 时 , 则 
为 a (z) +[(2, -z)/h]'ae (z). 

注意 式 (19.40) 是 (g +1) x1 维 的 ,从 中 我 们 求解 得 (g +1) 个 参数 a (z) 
(一 个 标量 ) 及 a (z)( 一 个 gxl 向 量 )。 


对 非 参 数 估计 的 一 个 迭代 过 程 
588 Henderson 等 (2006 ) 证明 可 以 使 用 如 下 的 迭代 算法 来 估计 g(， ), 其 中 我 


们 也 需要 施加 约束 — a IY -8(2,)| =0 来 保证 基于 式 (19.36) 的 5(') 是 


唯一 被 定义 的 。 算 法 关于 Y 是 线性 的 且 被 描述 如 下 。 
定义 一 些 当前 阶段 的 变量 (在 !-1 阶段 ) 为 
Y, - É... (Za) 
H, ° 


(1-4) = z LY, Ee EG Y 0, 





Ye = Èn (Z,) 


L =S E ; 
D, TA [sa e, K,(Z,,z)G, Ca 
7 
+ > os dK UD) G.G, | 
t=2 


N 


l , P š 
D, i "2 [e2 "epa K, (Za) CE (Za) 


ist 
T > e ZE ce K.(Z,,z)G,#. . (Za) | 


N 7 


l 了 
D, ia N | È K, (2,2) 605 L NU 


t=2 
-K (Za) Grtn Hi | (19.41) 


Henderson 等 (2006 ) 证 明 下 一 个 阶段 的 估计 量 (1 阶段 ) 为 (见习 题 19.3) 
in (2) -| 
b |- D, E APP? 本 (19. 42) 
ĉin (2) 
在 实践 中 , 王 是 未 知 的 ,在 初始 估计 中 可 以 通过 一 个 单位 矩阵 来 替换 X. #R 
而 ,即使 王 被 替换 成 一 个 单位 窍 阵 , 式 (19. 42) 仍然 是 一 个 迭代 估计 过 程 。Hen- 
derson 等 (2006 ) 证 明 这 个 过 程 经 常 在 三 到 四 步 后 收敛 。 此 外 ,可 以 使 用 非 参 数 
589 ”序列 分 析 法 来 获得 g(，) 的 一 个 一 致 初始 估计 。 我 们 将 在 19. 8 节 讨 论 固定 效 
应 模型 的 非 参数 序列 估计 。 


第 19 章 面板 数据 模型 


s R #: 3 %& X š šs 8; 


kupaqpas 它 是 下 式 的 解 
(z) T T 
A ~ r 22 El Ku Cb XZ.) | Z, a z] 





b (z) = —, (z) 一 

(19.43) 

HP z (z) =9 g(z)/0z (r=1,=,4), HL, „=P L- )Z(Əg,àg,). WED 
证 明 ( 见 习题 19.4) 





CC ， =-c X'e =- t > 2 (19.44) 


i, lig t-1 T-1 Tg’ 
» 


"en 1 
£u =e. e. = T > 2, s (19.45) 


一 般 而 言 ,b,(， ) 没 有 一 个 封闭 形式 的 表达 式 。 但 是 , 若 使 用 z( : ) 的 一 
个 一 致 初始 估计 量 , 则 对 于 b O ) 的 一 个 一 步 迭代 有 一 个 封闭 形式 的 表达 式 ， 
且 被 给 定 为 (在 方程 的 右边 把 5(: ) 替 换 成 g,(，… )) 


(z) `T T 
ZAY Yasta, EEPE TIET 


(19.46) 





b (z) = =, (z) - 


令 8(z) 表 示 g(z) 的 收敛 估计 量 , Henderson 4% (2006 ) iF BJ] 
E[E(z)] - g(z) = Ha N tof > | 


var(E(z) ) = Nh h, (TI) TE 
在 h <N “to Mia: We uum &(z) 的 渐 近 分 布 (x = [E(w) do) : 


W CORT OED HAAGI E a[o, TT- — J 


很 显然 , FLz) 和 ez 可 以 通过 下 式 来 一 致 估计 : 
f(z) = (ND)? E Y K,(Z,.2) 


ag 
wa jw Ë 


i=] t 


B= = V. (BZ = (2 
为 了 估计 偏 误 首 项 ， 我 们 需要 6 (z) 的 一 个 一 致 估计 量 : 


a2 
g 


ó (z) = = (z) -NF X YY KU) L, wb (Z,) 


t=1 st 


+o((Nhi:h ) ') (19.47) 
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" E] ñ -> R = m= a] 


Hep g, (2) ig, (z) 的 一 个 一 致 估计 量 ,其 可 以 通过 比如 基于 式 (19. 36 ) 的 局 部 
二 次 回归 来 获得 。 


19. 4.2 误差 方差 结构 未 知 


当 卫 是 未 知 形式 时 ,仍然 可 以 通过 估计 每 一 个 成 分 o,,1<j<1s<7 来 获得 
的 一 个 一 致 估计 。 因 为 7 是 有 限 的 ,仅仅 只 有 有 限 多 个 参数 需要 被 估计 ; 因 
此 ,得 到 的 估计 量 将 是 YN 一 致 的 。 当 我 们 使 用 3 的 一 个 VN 一 致 估计 量 时 ,在 
最 后 一 节 描 述 的 估计 量 &(z) 的 渐 近 分 布 仍然 没有 改变 。 但 是 ,人 们 也 可 以 选择 
忽略 的 方差 结构 。 在 本 节 , 我 们 忽略 的 方差 结构 来 推导 一 个 固定 效应 估计 
量 的 渐 近 分 布 。 在 这 种 情况 下 , 式 (19.39) 的 目标 函数 被 修正 如 下 (将 王 替换 
K l) 


£ (°) = YE) == Lf, -8g, +g, l [Y -g, + gae] 


(19.48) 
如 式 (19.41) 给 出 的 D, D, AD, WEL, BREKI HRAL ,我们 定 
591 ” 义 ( 其 中 我 们 也 使 用 ee, =T-l e c. 
1 ly | K (Z. ,2)G,G' + 5K, (Z,,z)G,G' 
J, [1-1] [K z, ,2) Gi Bi (Za) 
+ OK (Zaz) Cua (Zo) 
1 
Jj, [i-i] -iy [5 Ke, G6, | Nuu 
一 K (Z, ,2) Ce š ATER | 
g(z) 和 g'"(z) 的 下 一 步 估 计量 为 
g n (z) 4 
~ (1) = J, [Jyt + J,u-a]1 (19.49) 


E n (2) 
可 以 使 用 19. 4. 1 节 给 出 的 结论 通过 将 “替换 为 I， 来 推导 出 g(a) AIA 
近 分 布 。 特 别 是 , 偏 误 首 项 仍然 由 式 (19. 43) 给 出 , 且 对 所 有 :1,s AL ,= -1( 通 
过 在 式 (19.44) 和 式 (19. 45) 中 将 I HRH I)o Henderson 4 (2006 ) 证 明 
T &g (z) 的 渐 近 方差 被 给 定 为 
468 
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e ka Ai E id 


g oki(2 + T) 
var(g(z)) = A(T- D/GON h, 
Henderson 等 (2006 ) 同样 提出 方法 来 检验 一 个 非 参 数 随 机 效应 模型 与 一 个 
非 参 数 固定 效应 模型 ( 即 一 个 “ 非 参 数 Hausman [2 39”). Ç £. (CA 
in CORREO ) 非 参数 的 随机 和 固定 效应 估计 ，Henderson 等 提出 的 检验 统 
计量 是 基于 &,,(，) 和 gg(* ) 之 间 的 均 方差 : 


vi > > lén (Za) - ë. (Z,)]' 


通过 使 用 一 个 基于 残 差 的 自 举 法 可 以 获得 一 个 自 举 对 应 物 ( 原 始 自 举 法 ) 。 


19.5 一 个 固定 效应 部 分 线性 模型 


如 第 7 章 所 提 到 的 , 非 参数 回归 遭遇 了 维 数 诅咒 ,因此 ,当面 临 大 量 回 归 元 
时 ,实践 者 经 常 倾向 于 半 参 数 方法 。 在 本 节 ,我 们 考虑 一 个 半 参 数 部 分 线性 模 
型 ,只 有 回归 元 的 一 个 子 集 非 参数 地 进入 模型 。 一 个 具有 固定 效应 的 部 分 线性 
面板 数据 回归 模型 被 给 定 为 
Y =Xw+g(E) tp, tea Le=bd N. = 1⁄2, Y 
(19.51) 


+o( (Nh =h )™) (19.50) 


JEP XA a E d x1 维 的 ,其 他 剩余 变量 与 在 19. 4 节 定 义 的 相同 。 
我 们 进行 一 阶 差分 来 消除 固定 效应 ,于 是 


7 = a+g(Z,)-8(Z,) +ë, i= 1,2,-- N, t=2,3,.,7 
(19.52) 
其 中 了 =Y -Y , X =X -X ,#,=v, -v0 
个 体 i 的 准则 函数 被 修正 如 下 : 
Ci() = L(Y,X ,a,g,) 
=- IF, -Xa-g, +8,6, l'I UÝ, -Ña - g, +e] 
(19. 53) 
Hp =(X,,:: X) FAREA 
L=- en [Y -Xa-g +g e] 


i lg ú T-1 


L, =c ZE [7 -Š a-g -ge ], t22 


i tg 
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hi w x $ = x = E * 


Henderson 等 (2006) 建 议 通过 一 个 剖面 核 方法 来 估计 g(' A as XF a 
的 一 个 给 定 值 以 及 当前 阶段 估计 量 g CO ) ,我 们 通过 z (0z) 来 估计 下 一 步 
的 g(z) IEP g a (AR gin (z) 满 足 一 阶 条 件 


N 了 


Om > 2 K (ZE...) G KrK) E (Y Kua, k . (E, ay, @ &o (m) 


+[(Z, -—z)/h]'# (z) .8(2Z, .)) (19.54) 
将 式 (19. 52) 与 式 (19. 36) 进行 比较 , 令 &,(' ) 是 式 (19.36) 中 的 非 参数 估 
计量 , 令 &,,(， ) 是 式 (19.36) 中 将 Y, 换 成 X, 的 第 7 个 成 分 后 的 非 参数 估计 量 。 
更 进一步 地 , 令 &.(z) = 1&8,,(z),…,&.,(z)1', 那 么 ;通过 平滑 子 的 线性 化 ,并 
且 由 式 (19. 52) ,明显 地 有 
g(z,a) = 8, (z) - g,(z)'a (19.55) 
定义 Y: š P, u lé, (Z) -é,(Z,)l> A š iE e t X: = X, T 
l, (Z) -8,(Z,)| URĂ; = (X; ,--, X )'o Henderson & (2006 ) 建 议 通 过 
最 小 化 下 式 来 估计 a: 
> [六 -Å al I LÝ) - X7”a] (19.56) 
从 而 导致 如 下 的 闭 式 解 : 
& = [Zizi] SLST (19. 57) 
注意 因为 我 们 有 对 于 a 的 一 个 闭 式 解 , 没 必要 用 和 迭代 来 估计 &o 
& 的 渐 近 分 布 是 
YN(a - a) — N(0,V ) 依 分 布 收敛 (19. 58) 
其 中 V, 是 一 个 正定 矩阵 。 此 外 ,内 的 一 个 一 致 估计 量 被 给 定 为 


[yq] 
a 由 式 (19. 57) 给 定 , 我 们 可 以 用 19.4 节 中 介绍 的 方法 基于 下 式 来 估计 
&( ) ,除了 现在 我 们 需要 将 出 现 了 ,的 地 方 换 成 了，- 义 '&: 
一 X'a = g(Z.) - g(Z,) + error (19.59) 
直到 收敛 ,得 到 的 &(z) 具 有 与 19.4 节 中 给 出 的 相同 的 渐 近 分 布 。 这 是 因为 通 
过 用 真实 的 a 来 替换 式 (19. 59) 中 的 a 简便 地 给 出 了 19.4 节 所 涵盖 的 非 参 数 


回归 模型 。 接 下 来 ,注意 w-a=O0,(N-”) ,其 收敛 于 零 的 速度 快 于 非 参数 估计 
量 &8(z) -g(z)。 因 此 ,通过 用 a 来 替换 真实 的 a 将 不 会 影响 5(z) 的 渐 近 分 布 。 


第 19 章 面板 数据 模型 


+ j a m a š & $ = 


也 可 以 通过 忽略 方差 结构 来 估计 a。 这 种 方法 也 有 计算 简便 的 优势 。 
SË MÄ 表示 Nxl 和 Nxd 和 矩阵 ,其 第 i 行 分 别 被 给 定 为 了 =F,- 
[E (Y) -8. (Z )]# X] =X,-[g.(Z,) -8,(Z,)], 其 中 g,(，) 和 
ECOS ECCOME (，) 相 同 的 方式 定义 ,除了 我 们 将 I PRA l0 
那么 ,可 以 通过 下 式 估计 a 


< = | 

a 的 渐 近 分 布 被 给 定 为 

VN(a -a) —N(0,V,) 依 分 布 收敛 (19. 61) 

其 中 只 =4-B84 一 是 一 个 正定 和 矩阵。 此 外 , 六 =Â BA IE V, 的 一 个 一 致 估计 
量 , 其 中 


pt) [Z3;e;| (19.60) 


Me 


19.6 半 参 数 工 具 变 量 估计 量 


在 这 一 节 我 们 讨论 形 如 式 (19. 1) 的 一 个 部 分 线性 模型 的 估计 ,其 中 XX, 可 


能 与 误差 项 u 相关 。 我 们 允许 误差 项 是 序列 相关 的 (比如 ,一 个 随机 效应 模 
型 ) ,但 在 这 一 节 我 们 排除 固定 效应 模型 。 


19.6.1 一 个 不 可 行 的 估计 量 


到 目前 为 止 , 对 于 具有 一 个 单 向 随机 效应 误差 结构 的 部 分 线性 面板 数据 模 
型 (19. 1) ,我 们 仅仅 考虑 了 工 ,和 2, 都 是 严格 外 生 的 情况 。 在 本 节 ,我 们 允许 
X, 是 内 生 的 可 能 性 。 然 而 ,我 们 仍然 假定 Z,, 是 严格 外 生 的 。 对 于 允许 Z, 是 内 
生 的 一 个 部 分 线性 模型 ,参见 第 16 章 的 16.3.3 节 。 像 在 第 7 章 那样 ,我 们 首先 
WR gl )。 对 式 (19. 1) 关 于 2, 取 条 件 期 望 , 然 后 从 式 (19. 1) 中 减 去 它 , 得 到 
Y,- E(Y, | Z.) = (X, -EX1IZ))at+u=wa+u (19.62) 

其 中 我 们 使 用 了 

BE(u1Z)=0o Z X. - E(X ! Z.) 
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党 k w A 总 s S 坚 


我 们 允许 (因此 w ) 与 w, 相 关 的 可 能 性 。 若 v 包含 了 的 滞后 值 和 /或 
是 序列 相关 将 出 现 这 种 情况 。 假 定 存在 一 个 与 X ,相关 且 与 不 相关 的 p x1 
(p>q,X e RR') 工 具 向 量 W ( 详 见 下 面 的 式 (19.64) ) 。 那 么 ,我 们 能 够 使 用 工 
具 变 量 最 小 二 乘 估 计 a 得 到 
An = lowa) vy BCL)) =a + (os) “ooa (19.65) 
其 中 w 和 vw 是 Nxp 和 Nxg 维 的 ,具有 典型 行 W' 和 wv 。 同 样 ,y.E(ylz) 和 ww 都 
Ë N x1 向 量 , 有 典型 行 元 素 给 定 为 YE(Y,12,) 和 w。 令 W 和 表示 Txp 
和 Tx1 和 矩阵 ,其 典型 行 由 W 和 wu 给 出 。 我 们 需要 如 下 的 条 件 来 推导 
Qi,(n=NT) 的 渐 近 分 布 : 
w'v/n = E[ Wv] = A 


(w'uu'w)/n > E[ W'uu W ]/T = B ,B 是 正定 的 


w'u/n=>E[W u ] = 0 (19.64) 
使 用 式 (19. 64) 和 中 心 极限 定理 ,很 容易 证 明 
VN(aj, - e) — N(0,V) 依 分 布 收敛 (19.65) 


Her V=Q ''A'BAQ ', Q =A'A, A 和 B 在 式 (19. 64) 被 定义 。 
当 X, 实 际 上 是 弱 外 生 的 ,那么 可 以 简单 地 选择 W,=X,-E(X12,)=v， 


在 式 (19. 63) 中 定义 的 a 变 成 第 7 章 讨论 的 式 (7.5) 中 定义 的 (不 可 行 ) 估 计量 。 
19.6.2 工具 变量 的 选择 


我 们 现在 转向 如 何 选择 工具 WW 这 个 基本 的 问题 。 考 虑 了 ,和 Z .都 是 标量 
这 种 最 简单 的 情况 ,其 中 X= 了 ,和 2 是 外 生 的 。 注 意 我 们 一 定 不 能 选择 
W,=2,,, 作 为 v=Y,,,，-E(Y,,,12,) 的 一 个 工具 变量 。 因 为 即使 Z,,， ,与 
是 不 相关 的 ,由 于 g(， ) 的 函数 形式 是 未 知 的 ,所 以 不 能 保证 Z,， ,与 v 是 相关 
的 ,因此 Z,，, 与 w 可 能 是 弱 相 关 甚 至 不 相关 的 。 通 过 Z ,是 外 生 的 假定 ,我们 知 
É E(u lZ) =0, 所 以 Z ，, 与 误差 项 v, 是 不 相关 的 。 但 是 我 们 同样 能 够 有 
E(v,Z,,，,) =0, 以 致 Z.，, 与 是 不 相关 的 。 因 此 ,2Z, ，, 不 是 一 个 合理 的 工具 
变量 。 为 了 表明 这 确实 是 可 能 的 ,考虑 Z 是 一 个 独立 的 分 布 过 程 这 种 情形 ， 
满足 
E(Z,) =0, E(Z.)=0 (19. 66) 
同样 假定 g(2Z,) =2;。 在 这 种 情况 下 ,我 们 有 
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YN. 一 AP + z +u, (19.67) 

从 式 (19.67) 中 很 容易 发 现 Y _ 5 Z, 是 彼此 独立 的 ,因此 

EY 12) BUY) Š p, 
利用 式 (19.66) 、(19.67) 以 及 E(u IZ) =0, 我 们 有 
E[vZ,,,] =aE(Y ,,)E(Z,,) +E(Z.,,) 
+ E(u,2,,,) = 0 (19. 68) 

这 表明 Z ，, 与 内 生 回归 量 w, 是 不 相关 的 ,因此 不 可 能 是 一 个 合理 的 工具 
变量 。 当 然 为 了 表明 Z ，, 不 是 一 个 合理 的 工具 变量 ,我 们 已 经 设 定 了 一 些 较 
强 的 假定 。 在 实践 中 , Z ，, 与 v, 不 相关 是 不 可 能 的 ,但 Z ，, 与 "之 间 弱 相关 
肯定 是 可 能 的 。 

给 定式 (19. 62) 的 结构 及 X,=Y ，, ,我 们 知道 w =Y, -E(Y j lZ. )— 
定 与 Z ，, 的 一 些 函 数 相关 ,虽然 它 可 能 不 与 Z ，, 的 特定 线性 函数 相关 。New- 
ey(1900a) 讨 论 了 在 独立 数据 的 一 般 (参数 ) 非 线性 回归 模型 中 的 最 优 工具 变量 
估计 。 若 我 们 考虑 不 现实 的 情况 ,如 E(Y,12,) 和 E(X,12.) 是 已 知 的 ,那么 
v, =X, -EE(X,12,) 就 是 已 知 的 。 在 这 种 情况 下 , 式 (19. 62) 是 一 个 线性 参数 模 
型 ,并 且 我 们 可 以 使 用 Newey 的 结论 来 获得 一 个 与 内 生变 量 "最 大 相关 的 工具 
变量 。 若 我 们 限制 自己 必须 选择 的 工具 是 2,，, 的 函数 ,那么 ,适合 的 工具 简单 
地 就 是 v 在 Z,,， ,上 的 最 优 投射 ,或 者 是 给 定 Z,，, 下 vv 的 条 件 均值 函数 。 于 
是 ,被 提出 的 工具 是 

W = E(v. | 有 
= E(Y l Za) - E[E(Y, 1 Z.) ! Z,a] (19.69) 

在 实践 中 ,这些 条 件 期 望 是 未 知 的 ,并 且 我 们 必须 使 用 非 参 数 方法 来 估计 
它们 。 方 程 (19. 69) 是 有 计算 要 求 的 ,因为 它 包 含 了 一 个 双重 的 条 件 期 望 , 即 
E[E(，12,)12,,,]。 然 而 ,注意 

Y is [Y a -E(Y,.. 1 Z.)] + ECY, 
= v, +E(Y, 12Z) 
H ECY, 1Z ) j v 是 正 交 的 ,因此 ， 
EL v ECY, l Z a)l] = Elo Elo, + ECY, 1 Z.) 1 Z .,]) 
= E(v [E(s,] Z.) +A]) 
= E(v Elv, | a +u Elv] 
= E(v Elv, ! Z,a ]) (19.70) 
其 中 我 们 使 用 了 如 下 的 假定 :2Z ,是 一 个 独立 同 分布 过 程 ,有 
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E(Y 12Z) = E(Y, ) = n, 
URE) =0 的 事实 。 方 程 (19.70) 告 诉 我 们 , E(Y ，,12,，,) 相 当 于 区 (12,，，) 
的 一 个 等 价 工具 变量 。 但 是 , B(Y ，,12, ，, ) 是 基于 一 个 单一 的 条 件 期 望 ,所 
以 比 包 含 一 个 双重 条 件 期 望 ( 见 式 (19. 70)) 的 E(v,12,,，,) 更 容易 计算 。 因 
此 ,我 们 建议 使 用 
W, = E(Y .! Zaa) 

作为 w 的 一 个 工具 变量 而 非 使 用 式 (19. 70 ) 。 

其 至 当 Z 不 是 一 个 独立 同 分 布 过 程 时 ,比如 当 (Y,,2,) 关 于 4 是 平稳 的 ,也 
很 容易 证 明 ECY, ，,12,，, ) 和 vw 是 正 相关 的 ,因此 ECY, IZ, ) 是 一 个 合理 
的 工具 变量 。 

在 一 般 情形 下 ,我 人 有 XX, = (了 Xa) IEP X, ,是 外 生 的 。 那 么 ,我 们 
的 工具 变量 将 是 W, =(W W) ,其 中 

W , 区 | Z,,.,), W a7 :a E(X, a! Z.) 


is 2, 


(其 等 价 于 XX ,)。 
19.6.3 一 个 可 行 的 估计 量 


19. 6. 1 节 介 绍 的 估计 量 a ,因为 条 件 均值 函数 E(Y |Z ). E(X |Z ) 以 及 
E(W,1Z ) 是 未 知 的 ,所 以 不 可 行 。 通 过 将 未 知 的 条 件 均值 函数 替换 为 非 参 数 
估计 量 ,能 够 获得 一 个 可 行 的 估计 量 , 比 如 核 估计 。 接 下 来 ,我 们 将 使 用 核 方法 
来 估计 如 上 所 示 的 未 知 条 件 期 望 。 具 体 地 ,我们 通过 三 上 JX DE W kit 
f(2,),€,=E(Y,,12,), E(X,1Z2,),W, =E(X,12,,.,) ,其 中 (回忆 2Z,eR') 


P 1 N T 

£ ,= E(Y | Z.) T NT È 2 E P r 
1 N T 

X = E(X! Z,) > NT 2, 2, X,K, agf a 


HA 
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l N r z 
=. P ` NT 2. X K . i PP 
HP K, ,=K,((2, -2,)/h) 是 一 个 乘积 核 函数 。 
我 们 通过 5 =X, -处 , 来 估计 v=X,-E(X,12,)。 那 么 ,使 用 向 量 一 矩阵 


符号 ,a ,的 可 行 估计 通过 从 式 (19. 63) 中 将 
上 =E(Y | Z), v, = X -E(X.! Z.) 
以 及 WW 分 别 替 换 为 核 估计 量 &,，、5, = X -X 和 多 ,来 获得 ,其 矩阵 形式 为 
an = [bow] ov"( Y- E) (19.71) 
Baltagi 和 Li(2002) 证 明了 a 与 式 (19. 65) 中 给 出 的 a, 4 Hl E KS A r ZF 
布 。 获 得 了 a 的 一 个 VN 一 致 估计 量 后 ,可 以 基于 下 式 来 估计 g(z): 
Y, T X Any i g(Z,) T T X (a ill ay) = g(Z,) * #, 


Hh e, =u +X'(a-G,)。&g(z) 的 一 个 非 参 数 核 估计 量 被 给 出 为 


yy tr -AK | le 
(z) = í aa 
Na f(2.) 


因为 ay -a = 0 (NP) ,其 快 于 通常 的 非 参数 收敛 速度 ,很 容易 证 明 &(z) 
与 a 已 知 时 有 相同 的 渐 近 分 布 。 因 为 这 是 一 个 相当 标准 的 结果 ,在 此 ,我 们 将 
不 列 出 g(z) 的 渐 近 分 布 。 

Lin 和 Ying(2001 ) 提供 了 面板 数据 非 参 数 和 半 参 数 估 计 的 一 般 处 理 ，Fan 
和 Li(2004) 考 虑 了 半 参 数 变 系数 面板 数据 模型 ,并且 提 出 了 同时 选择 显著 性 变 
量 及 估计 未 知 参数 的 过 程 。 


19.7 在 半 参 数 模型 中 检验 序列 相关 以 及 个 体 效 应 


对 于 检验 个 体 效 应 (或 者 零 序列 相关 ) 的 传统 统计 量 通 常 都 是 典型 地 基于 
线性 回归 模型 。 这 些 检验 过 程 对 于 回归 函数 形式 误 设 是 不 稳健 的 。 当 基于 一 
个 线性 模型 拒绝 没有 个 体 效应 (或 者 零 序列 相关 ) 的 原 假定 时 ,我 们 不 清楚 这 个 
拒绝 是 由 于 真正 的 个 体 效应 (或 者 误差 序列 相关 ) 还 是 由 于 回归 函数 形式 的 误 
设 。 为 了 获得 一 个 稳健 的 检验 统计 量 , 可 以 基于 一 个 估计 出 来 的 半 参 数 或 者 非 
参数 回归 模型 来 检验 误差 的 序列 相关 。 

Li 和 Hsiao(1998) 考 虑 了 在 形 如 式 (19. 72) 的 一 个 半 参 数 部 分 线性 模型 中 
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检验 误差 序列 相关 的 问题 。 
Y =Xa+g(Z) +u, (19.72) 
其 中 g(， ) 08 8OE CE aE). HEIP X EEA 了 ,的 滞后 值 。Li 和 
Hsiao 考虑 的 主要 原 假定 是 瓦 :p = E[u u] =0( 对 应 H :p 了 0)。 他 们 基于 
如 上 给 定 的 部 分 线性 模型 的 估计 残 差 构建 了 一 个 检验 统计 量 ,并 且 他 们 推导 了 
这 一 检验 统计 量 的 渐 近 分 布 。 他 们 还 提出 了 联合 检验 高 阶 序列 相关 和 个 体 效 
应 的 方法 。 
Li 和 Hsiao(1998) 考 虑 了 一 个 密度 加 权 统 计量 : 
P; = El u fatia] 
其 中 f=f(Z,) 是 Z, 的 概率 密度 函数 。 可 以 通过 立 ,f ,来 估计 4f,, 其 中 六 ,=Y, 
-XQ-&(2,) ,a 是 第 18 章 中 讨论 的 a 的 半 参 数 估 计量 , 且 &8(2,) =E, I 
Z.) -E(X,12,)'a。 检 验 统计 量 是 7 的 样本 对 应 值 , 即 
L, = N > 2 CPE Z sS 
定理 19. 2 在原 假定 下 ,误差 w, 服 从 一 个 鞭 差 分 过 程 ,可 以 证 明 
VNI 


d 
— > N(0,1) 


~ 


V 


I 


其 中 
⁄ a N™ >> ECNE AE = s f. Bg) š f. 


B = ND (A, - X)(X, -A oX, = E(X,1 Z.) 


dn 
Li 和 Hsiao(1998 ) 基于 对 所 有 天 ,下 (wu ) 的 一 个 密度 加 权 方 式 , 对 于 检 
验 没有 个 体 特定 效应 的 原 假定 也 提出 了 一 个 统计 量 。 这 个 检验 统计 量 被 给 
定 为 


2 N T T I _ 
Jys = NT -DÈS ú. é / f. 
定理 19.3 在 原 假 定 下 ,误差 w, 服 从 一 个 蒜 差 分 进程 ,可 以 表明 
VNI, JY, NGO0,1) 
其 中 


T 
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2 =N" Ea b, f, TE P€ 
考虑 一 个 形 如 式 (19. 73 ) 的 半 参 数 动态 面板 数据 模型 
Y =X'a+g(Z,) +u, i=1,2,-..N,t = 1,2,=--,T (19.73) 
Hp X Æ pxl 维 的 ,a 是 未 知 参数 的 一 个 p x1 维 的 向 量 ,Z, 是 9g 维 的 ,g(，…) 
是 未 设 定 的 平滑 函数 。 我 们 允许 X 包含 了 的 滞后 值 (比如 , 工 , 的 第 一 个 元 素 是 
Y ，,) ,从 而 式 (19. 73 ) 是 一 个 半 参 数 动态 面板 数据 模型 。 我 们 假定 在 对 三 +， 
E(u |Z ) =0 的 意义 上 ,2 ,是 弱 外 生 的 。 同 样 ,我 们 假定 数据 关于 下 标 守 是 独 
立 的 ,所 以 我 们 有 var(z) =1 OQR, JerB Q = var(u ),u j NT x 1 维 的 ,wu 是 
Tx1 维 。 我 们 考虑 了 固定 、N 较 大 的 情况 ,因此 ,所 有 渐 近 都 是 对 N— e= 而 
言 的 。 
我 们 允许 误差 u 是 序列 相关 的 可 能 。 例 如 ,误差 u ,可 以 有 形 如 zw = 人 +v, 
的 一 个 单 向 误差 成 分 设 定 ,其 中 yj 是 一 个 随机 个 体 效应 ,使 得 误差 序列 相关 。 
Kniesner 和 Li(2002) 考 虑 了 形 如 式 (19.74) 的 一 个 半 参 数 动态 面板 模型 的 
估计 
Y. = 1. 8 +g(Z,) +u, (19.74) 
其 中 了 是 个 体 i 在 时 期 :工作 小 时 的 对 数 ,2Z, 包 括 In( 工 资 ) 教育 、 年 龄 ,孩子 
数目 等 ,Kniesner 和 Li 首先 通过 设 定 g(2,) =Z y 估计 一 个 线性 模型 。 他 们 基 
于 普通 最 小 二 乘 残 差 来 检验 没有 个 体 效 应 的 原 假定 ,并 且 拒 绝 了 原 假 定 。 若 把 
这 个 结果 作为 误差 真正 序列 相关 或 者 个 体 效 应 的 证 据 ,我 们 需要 使 用 某 些 工具 
估计 方法 来 估计 wa。 然而 ,如 上 所 述 ,检验 结果 实际 上 可 能 反映 回归 函数 形式 的 
误 设 。Kniesner 和 Li 接着 估计 了 半 参 数 模 型 (19.74) ,并 且 应 用 了 Li 和 Hsiao 
(1998) 的 J /检验 无 个 体 效 应 ,他 们 使 用 如 上 介绍 的 来 自 部 分 线性 模型 的 估计 
残 差 ,并 且 发 现 个 体 效应 的 存在 没有 相应 的 证 据 。 他 们 进一步 使 用 12. 1. 1 节 
介绍 的 检验 统计 量 (12. 7) 来 检验 是 否 (Z) =Z'y, 检 验 强 烈 地 拒绝 g( - ) 的 线 
性 函数 形式 。 因 此 ,他 们 的 应 用 论证 了 郴 数 形式 的 灵活 使 用 如 何 可 以 帮助 识别 
是 否 存在 真正 的 个 体 效 应 或 者 是 序列 相关 的 误差 ,或 者 是 否 存 在 函数 形式 
误 设 。 


19.8 面板 数据 模型 的 序列 估计 


如 我 们 在 第 15 章 讨 论 的 ,序列 方法 的 一 个 优势 就 是 其 能 容易 地 施加 限制 ， 
如 可 以 施加 可 加 性 。 在 本 章 余 下 的 部 分 ,我 们 关注 面板 数据 模型 的 序列 估计 。 
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这 些 讨 论 主要 来 自 Ai 和 Li(2006) 的 工作 。 
19.8.1 可 加 性 效应 
我 们 考虑 一 个 一 般 的 可 加 性 部 分 线性 固定 效应 模型 
J 
Y, = Xie + > g (Ka) +k, + v, (19.75) 
其 中 g(， ) 的 函数 形式 是 未 设 定 的 。 
Dal- =l) gC ) ,gn ( ，) ) "表示 已 知 序列 基础 函数 ,在 下 
式 的 意义 上 能 够 很 好 地 通 近 8 (* ) ,对 某 些 z >0, 有 
s (t) = q (r) + O(k™) 
忽略 双 近 误差 ,参数 向 量 a 和 系数 向 量 r, 可 以 通过 如 下 的 非 线性 最 小 二 
乘 估计 量 估 计 出 来 : 
(a,T) =arg min 5 > |r, T Tii 一 


= !=2 
2 


-六 [oO -0 (19.76) 

65 方程 (19.76 ) J — 4 m ERRER REAN o g) =q( T, 
Egl ) 的 一 个 一 致 估计 量 , 有 通常 非 参 数 的 收敛 速度 。a 是 VN 一 致 且 渐 近 

正 态 分 布 的 。a 渐 近 方差 的 一 个 一 致 估计 量 可 以 通过 把 式 (19. 76) 看 成 是 一 个 
参数 回归 模型 而 获得 。 更 具体 地 , 令 86=(a',7',…,7T))' 三 (a',77')', 并 且 定 义 


1 (0) = > [r ži A ú 9 a 二 是 2 


Qiu—l 


2 


J 
x= D [4(X,) - (X...) 1'7, | 














fe lz | s w J] 


注意 对 于 (对 所 有 j=1,… ,J) 的 固定 值 ,车 g(。 )'m EAF g ) 的 正 
MEE, V 将 会 是 9 方差 的 正确 估计 。 但 是 , 当 上 一 wm 时 ,V 不 是 8 的 适当 的 估 
计 方差 ,因为 ga(* r, REg O ) 的 一 个 VN 一 致 估计 。 然 而 ,V. 的 左上 角 部 
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分 总 是 给 出 var(a) 的 正确 ( 即 一 致 ) 估 计量 。 
Ai 和 Chen(2003) 的 结论 也 可 以 被 用 来 估计 更 一 般 的 模型 : 


J 
Y, = vo (X,,a) + > g (s,(X,,a)) +, +, (19.77) 
jepo (e) ,j=1,…, 是 已 知 形式 的 函数 ,5 (，) 是 未 知 的 函数 。 令 4(，) = 


(od) hapt. I ARETAN EAEE g JA -^E 
知 序列 ,对 某 些 r >0, 有 
gC) = q (:)'m, + OCK") 
忽略 逼近 误差 ,参数 向 量 a 和 系数 向 量 可 以 通过 非 线性 最 小 二 乘 估计 量 
被 估计 出 来 : 


(a,m) =arg min > > |r. mk TE -v (X.,a) +s (X.Q) 


- X Lg (X,,a)) -gue)) 1 | (19. 78) 


在 类 似 于 Ai 和 Chen(2003) 的 条 件 下 , & (， ) =q,( °)’, 可 以 被 证 明 是 
g ) 的 一 个 一 致 估计 量 , 有 通常 非 参 数 的 收敛 速度 (j=1,…,J)。a 是 VN 一 
致 且 渐 近 正 态 分 布 的 。 可 以 通过 把 式 (19.78) 看 成 是 一 个 参数 回归 模型 而 获得 
a 渐 近 方差 的 一 个 一 致 估计 量 。 更 具体 地 , 令 9= (a,7) ,并 且 定 义 


1(0)= > | Cp Ts 


J 
- D lyya) = gll, aa) ) nm 














ba | š ua je eA e 


IA V 是 a 的 正确 估计 方差 。 
19.8.2 固定 效应 的 其 他 表述 


我 们 考虑 一 个 具有 固定 效应 的 简单 线性 面板 数据 模型 : 
Y = Xa +, +v, i = 1,2,” >N, £ S 1 2. … T (19.79) 
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在 本 节 我 们 没有 进行 一 阶 差分 来 消除 固定 效应 x,。 相 反 地 ,我 们 假定 存在 
一 些 不 随时 间 变 化 的 变量 W ,如 E(p,1X,,WW)=g(X,W), 其 中 g(，) 的 函数 
形式 是 没有 设 定 的 。 正 如 我 们 将 简单 地 证 明 ,这 将 导致 一 个 半 参 数 部 分 线性 模 
型 。 我 们 将 这 种 所 谓 的 固定 效应 模型 解释 为 一 个 随机 效应 人 ,使 得 人 和 XX 的 
联合 分 布 是 未 限制 的 .了 此 外 ,假定 回归 元 满足 外 生性 条 件 已 (> 1X ) =0, 其 中 
”= (zy)。 在 这 个 条 件 下 ,可知 不 随时 间 变 化 的 回归 元 系数 是 不 可 识别 
的 。 因 此 ,为 了 简便 ,我 们 假定 X, 不 包括 时 间 不 变 回 归 元 。 我 们 用 W 来 表示 时 
间 不 变 回 归 元 ,并 且 把 外 生性 条 件 写 为 E(v IX W ) =0。 时 间 不 变 回 归 元 的 系 
数 a 可 以 通过 固定 效应 估计 量 a 被 一 致 估计 。 固 定 效应 估计 量 的 优势 是 它 不 
R(X ,W) 和 ,分布 的 参数 化 。 它 的 劣势 是 它 不 能 够 估计 时 间 不 变 回 归 元 
的 效应 。 为 了 估计 时 间 不 变 回归 元 的 效应 ,应 用 研究 者 经 常 诉 诸 限 制 条 件 
E(u. lX ,WW ) =W'6 并 且 应 用 随机 效应 估计 量 。 当 且 仅 当 限 制 条 件 E(j1X W ) 
=W'6 满足 时 ,随机 效应 估计 量 是 一 致 的 。 

若 E(j1X,W)=g(X,W) 关 W656, 那么 可 以 简单 地 把 g(， ,* ) 看 成 是 模 
型 中 的 一 个 未 知 非 参 数 成 分 。 通 过 这 种 方式 ,可 以 识别 和 估计 时 间 不 变 回 归 元 
的 效应 。 为 了 看 出 这 一 点 ,注意 因为 个 体 效应 和 回归 元 的 联合 分 布 是 未 限制 
的 ,函数 g(X,,W,) 是 未 限制 的 。 令 n =u, -g(X,,W,) ,那么 Eln, IX W) =0， 
我 们 把 模型 (19. 79 ) 重 写 为 

Y = X'a +X. F) +ú t Em +u. Elu IXW) = 0 
(19.80) 

很 明显 , 当 a 可 识别 时 ,未 知 的 函数 &(X W) =E(Y 一 XalX,,W,) 是 可 识 
别 的 ,并 且 我 们 可 以 使 用 非 参数 序列 方法 来 估计 wa 和 g(*)。 为 了 说 明 这 一 
点 , 令 

p(x,w) = (p (xz,u),p,(z,w)," p (z,w))' 
表示 一 个 已 知 的 基础 序列 ( im FE 2° sk r ER RK PR 3) ,对 一 个 Kx1 向 量 8 和 一 
个 标量 r >0 ,满足 
g(x,w) = p(x,w)'B + O(K”) 
ARRE O(K ') ,我 们 通过 最 小 二 乘 估 计量 来 估计 系数 ww 和 有 


(aĝ) = argmin "> (Y, -Xa - p(X, W,)'B)? — (19.81) 


且 未 知 函 数 g( . ) 通 过 &(x,w) =p(x,w)'B 来 估计 。& 是 VN 一 致 且 渐 近 正 态 


”也 就 是 说 ,我 们 把 轩 定 效应 看 成 随机 效应 ,但 是 随机 效应 项 ,可 以 和 针 = (X... X H, 
其 中 相关 的 结构 是 未 设 定 的 。 


第 19 章 面板 数据 模型 


G 5 x A s ES š s š 


分 布 的 。& 渐 近 方 差 的 一 个 一 致 估计 量 可 以 通过 将 式 (19. 81) 看 成 是 一 个 参数 
(线性 ) 回归 模型 ,由 其 通常 的 方差 估计 量 而 轻易 获得 。 

估计 量 &(x,w) 可 以 被 用 来 分 析 w 的 边际 效应 以 及 检验 随机 效应 假定 
Elu, IX, W) AW So WAN, w 的 平均 边际 效应 是 广义 平滑 参数 8(x,w) 的 一 个 
特殊 情况 ,其 在 Ai 和 Chen(2003 ) 中 被 证 明 是 渐 近 正 态 分 布 的 。 在 第 12 章 提出 
了 对 于 假定 g(x,w) =w 人 的 一 个 一 致 检验 。 


19.9 非 线 性 面板 数据 模型 


线性 面板 数据 模型 的 一 个 重要 特征 是 观测 的 因 变量 关于 个 体 效应 是 线性 
的 ,以 上 讨论 的 每 个 估计 量 都 利用 了 这 一 点 ,因此 个 体 效应 可 以 通过 简单 的 时 
间 差 分 技术 被 消除 。 这 个 结构 使 得 我 们 也 能 够 在 (X,,W) 均 值 独立 于 (7,,v,，) 
的 条 件 下 估计 条 件 均值 E(p1X W.) IEH n, =u, -EE(p1X,,W)。 然 而 ,车 观 
测 的 因 变 量 关 于 个 体 效应 是 非 线性 的 ,个 体 效应 不 能 够 通过 简单 的 时 间 差 分 技 
术 被 消除 ,并且 E Cu, IX. W) 在 均值 独立 条 件 下 不 能 被 一 致 估计 。 受 限 和 定性 
因 变量 面板 数据 模型 是 两 个 重要 的 例子 ,其 观测 因 变量 关于 个 体 效应 是 非 线性 
的 。 在 这 些 模型 中 ,可 能 要 求 " 非 线性 差分 "技术 来 消除 个 体 效 应 。 本 节 的 目的 
是 综述 这 些 在 文献 中 已 经 被 提 及 的 非 线性 差分 技术 。 我 们 回顾 了 面板 数据 审 
查 回归 模型 (也 被 称 为 类 型 1 Tobit 模型 ) 面板 数据 样本 选择 模型 (也 被 称 为 类 
型 2 Tobit 模型 ,我 们 在 第 10 章 讨论 过 ) 以 及 面板 数据 离散 选择 模型 。 

我 们 将 使 用 1|4| 来 表示 一 个 示 性 函数 ,车 事件 4 发 生 则 取 1 ,否则 取 O, 
我 们 也 将 使 用 符号 函数 ,sgn(4) , 若 4 是 正 的 其 取 值 为 1, 若 4 是 零 其 取 值 为 0， 
若 4 是 负 的 其 取 值 为 -1。 对 于 每 一 个 个 体 ,我 人 有 X= (X... .X.), Y. = 
(Y ss Y ), u = (wu ,…,u,)。 最 后 ,通过 星 号 ( * ) 标 记 的 变量 是 不 可 观测 
的 潜 变量 。 


19.9.1 审查 面板 数据 模型 
我 们 从 面板 数据 审查 回归 模型 开始 ,其 被 给 定 为 


Ë” = X'a 十 从 + v, 
(19.82) 
y. — max|0,Y" | 
在 这 个 模型 中 ,潜在 因 变 量 关于 个 体 效应 是 线性 的 ,但 观测 的 因 变 量 
Y 关于 是 非 线性 的 ,具有 审查 所 引起 的 非 线性 。 对 观测 因 变量 的 简单 时 间 差 
分 不 能 够 移 除 人 。 为 了 看 出 为 什么 简单 时 间 差 分 不 能 够 移 除 个 体 效 应 ,对 于 任 


607 


481 


608 


482 


非 参数 计量 经 济 学 


何 时 期 :以 及 真实 值 a, 记 
y -Xa = max{Y” - X'a, 一 X'a| = max|u, +v,, - X'a| (19.83) 
很 明显 , Y -Xa 是 误差 项 人 + v 的 审查 部 分 , 其 中 - X'a 是 审查 点 。 类 
似 地 ,对 于 任何 时 期 s, 
Y, -Na = maxu, +v,- Xal (19. 84) 
ERAM u +r 的 审查 部 分 ,其 中 - X'a 作为 审查 点 。 应 用 简单 的 时 间 差 分 ， 
我 们 得 到 
Y,- X'a 一 L A _ X'a) = max( 作 +v,- X'a) - max( 凡 + Ps — X'a) 
很 明显 ,通过 简单 线性 时 间 差 分 没有 消除 个 体 效 应 。 
为 了 估计 未 知 的 参数 a, 没 必要 在 每 一 个 数据 点 消除 个 体 效应 。 若 差分 的 
误差 项 
max( 信 +u, - X'a) — max(u, + v, 一 X'a) 
有 在 给 定 回归 元 下 的 零 条 件 均 值 ,那么 我 们 能 够 通过 标准 回归 技术 估计 出 a。 
遗憾 的 是 , 当 (i) 条 件 于 回归 元 和 个 体 效应 的 误差 项 ” 和 ” 不 是 同 分 布 ,或 者 
(ü) 审查 点 -Xa 和 -Xa 是 不 同 的 , 则 差分 的 误差 项 没有 零 条 件 均值 。 那 
么 ,为 了 获得 a 的 一 致 估计 ,我 们 必须 解决 (i) 和 (ii) 这 两 个 问题 。 第 一 个 问题 
通常 通过 施加 如 下 的 条 件 进行 处 理 : 
假定 19. 1 误差 项 和 vw REFA, X, ,pu ) 是 同 分 布 的 。 
第 二 个 问题 可 以 解决 如 下 :通过 人 工 审 查 观测 因 变 量 使 得 两 个 误差 项 在 相 
同 的 审查 点 被 审查 , 即 max| - X'a, -X'al 。 具 体 地 ,定义 人 工 审查 误差 项 为 
(下 面 第 二 个 不 等 式 利用 了 式 (19. 83) ) 
e(Y, -~ X'a,X'a) z max[ Y - X'a, 一 Xal 
= max|J +v,» — X'a, _ X'al 
e(Y, -~ X'a,X'a) = max|Y - X'a, - X'a| 
= max|A +v,» — X'a, - X'a| 
接着 从 假定 19.1 可 知 e(Y -X'a,X'a)fme(Y -Xa,E.a) 条 件 于 回归 元 
和 个 体 效应 是 同 分 布 的 。 这 暗示 着 (人 , 通过 差分 被 消除 了 ) 
E[e(Y, - X'a,X a) -e(Y —X'a,X a) | X X ] =0 (19.85) 
因此 ,a 可 以 从 条 件 矩 约束 (19. 85 ) 通 过 使 用 标准 回归 技术 如 GMM # — 
估计 。 因 为 式 (19. 85) 是 通过 观测 因 变 量 的 一 个 非 线性 转换 后 应 用 简单 的 时 间 
差分 而 获得 的 ,我 们 把 这 种 方法 称 为 “ 非 线性 差分 ”。 
尽管 a 的 真实 值 可 以 从 式 (19. 85) 用 GMM 估计 ,但 基于 一 个 条 件 零 均值 
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约束 的 估计 比 基 于 一 个 无 条 件 零 均值 约束 的 估计 更 复杂 。 因 此 ,一 个 更 简单 的 
方法 是 要 找到 凸 目 标 函 数 ,其 一 阶 条 件 与 式 (19. 85 ) 隐 含 的 无 条 件 矩 条 件 的 某 
版 本 是 相符 的 。 例 如 ,可 能 使 用 目标 函数 


def 


A(a) = E(r(Y ,Y ,(X, - X. )'a)) 


其 中 
Y - 3Y, -YY, 8=<-Y, 
r(Y ,Y,,6) =1( 了 - Y, -8), -Y <6<Y, 
Y + êY, - Y Y,, Y <ô 
满足 无 条 件 矩 约束 
2 E([e(Y, -和 aa) - e(Y, - X'a,X'a)](X, - X.)) 


= 0 
很 容易 看 出 ,对 所 有 (Y Y,,8), r(Y.,Y,,8) >0。 因 此 ,a 可 以 通过 最 小 化 
4(a) 的 样本 对 应 物 被 估计 出 来 : 
& = “amin PAY, E —- X. )”&) (19.86) 


i=l t<s 


这 就 是 Honoré( 1992) 所 建议 的 方法 ,他 证 明 这 个 目标 函数 识别 了 a, 并 且 
证 明 a 是 VN 一 致 且 渐 近 正 态 分 布 的 。 可 以 通过 通常 的 公式 估计 a 的 渐 近 方 
2 ,给 定 为 


V = A-'BA-! 
其 中 
. “ZZ Br( 了 了,( - X. )'ë) 
4 = 一 一 一 一 一 (XX, -X,)(X, g s: 
l #=1 <t 06 
_ N 
B = 2 2, 2,.B,.D. 
i=l t s< 
or( 了 Y ,了 ,(X - X )'ë 
=— “ —— (X. = É ) 
us Da it is 
or( a Es ,a) _ Br( Ws ,0) 
aT m 


注意 假定 19.1 也 暗示 着 
E[£(e(Y, -和 aa)) - £(e(Y, - X'a,X'a)) | X X ] = 0 
(19.87) 
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= x. w m g < 3 g 


对 于 任何 函数 &(， ) 都 成 立 。 由 此 ,被 标记 的 一 类 估计 量 可 以 从 上 面 给 出 的 
条 件 矩 约束 通过 GMM 估计 来 获得 ;参见 Ai 和 Li(2006) 关 于 如 何 基于 
式 (19. 87) 来 构建 a 的 一 致 估计 量 。 

在 假定 19.1 下 ,上 面 描述 的 估计 量 可 以 被 扩展 到 可 加 部 分 线性 面板 数据 
Tobit 模型 : 


J 
V = sa i 2 SK) +u, +v, RHS > 0 


0, 其 他 
HP g (O ) 是 未 知 函数 。 出 于 识别 的 目的 ,我 们 假定 未 知 函数 满足 对 所 有 j, 
g (0) =0, EX 


J J 
£ | 8 = Kona a 2 oTa) Koat k: Ë gX a) ) 


J J 
= max fu, + Pa T X, a ú 2. s (X), s X, a 本 > lz) | 
假定 19. 1 暗示 着 
) J 
[FPX EEEE 


F J 
- [e(r -iua Da Net Y Aa ) | x..x.) 
= 0 
按照 Ai 和 Chen(2003) ,我 们 通过 线性 第 pu( ` )'m KEA p- ), JEP 
pO ERBERK — AE. RA 23] a 和 得 系数 z 可 以 通过 下 式 
被 估计 ; 


N 
(a,,7) =arg miny Y r| Y, Y, Og T Xaa) a 


1 
+ E (PX) - ph(X .)) m, 


未 知 函数 通过 有 (， ) =pl )'m 被 估计 出 来 。Ai 和 Li(2006) 证 明 à 是 
VN 一 致 且 渐 近 正 态 分 布 的 ,并 且 &(， ) 一 致 估计 了 g(… )。 

假定 19.1 对 于 上 面 所 有 讨论 的 估计 量 是 关键 的 条 件 。 这 个 条 件 比 Tobit 
模型 正常 所 做 的 假定 更 弱 。 例 如 , 它 允 许 依赖 数据 以 及 误差 项 与 解释 变量 的 相 
依 ( 即 异 方差 )。 但 它 仍 然 是 受 限 的 , 它 排除 先决 或 者 内 生 回归 元 。 对 于 先决 或 
者 内 生 回 归 元 的 情况 ,条 件 矩 约束 (19. 87) 不 成 立 。 在 这 种 情况 下 ,上 面 描 述 的 
过 程 需 要 被 修正 。 我 们 现在 证 明 如 何 修正 上 面 的 过 程 来 一 致 地 估计 模型 的 参 
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数 。 我 们 从 先决 回归 元 的 情况 开始 。 定 义 蕊 = Xi Xa) JE E HA E e 
a=(a' ,a )'。 假定 X, 是 外 生 的 ,X,, 是 先决 的 ( 即 包含 滞后 因 变 量 )。 假 定 
19. 1 被 修正 如 下 : 

假定 19.2 IHEM >s, RÉD v Mv RIEF, , 工 , 风 ,) 是 同 分 布 的 。 

假定 19.2 弱 于 假定 19. 1。 为 了 看 出 为 什么 假定 19.2 允许 先决 回归 元 , 假 
定 目前 > ,独立 于 于, =(X ,,X ,-' X ,)flX. A aaa) WA, 
AAEM s <t v Ao HPR SF T X MIX: JER R v 和 vw 是 同 分 布 的 ,假定 19.2 
被 满足 。 

先决 回归 元 的 问题 是 审查 点 包含 先决 回归 元 ,使 得 审查 误差 项 e( Y. - 
X'e,X'a)#le(Y -Xa,Xa) 不 是 同 分 布 的 。 这 个 问题 的 一 个 解决 方式 是 从 
审查 点 去 掉 先 决 回归 元 。 为 了 做 到 这 一 点 ，Honoré 和 Hu(1999 ) 假 定 X a, =0 
以 1 的 概率 成 立 。 接 下 来 ,定义 


e(Y, = X'a,X œ X'a) z: max | Y, g: x'a, T Xat,» P. X'a| 


U ka ka 1 


= max|u, +v,, - X ai， -Xal 
e(Y, - X a,X ai) = max| Y. — Xe, - X; a] 
= max[|# +u, - X a, - X'a| 
假定 19.2 UK X, a, 20 概率 为 1 的 假定 暗示 着 给 定 (X，,,X,) 下 ,误差 项 


ae(Y, -Xa,X ,a ,Xa) 和 ae(Y, -X'e,X' e ) 是 同 分 布 的 。 这 也 暗示 着 
E(e(Y, -Na a X a) - e(Y, -XaX a)l X ,,X.) = 0 
(19.88) 
参数 a 现在 可 以 从 条 件 矩 条 件 (19. 88) 通 过 GMM 被 估计 出 来 。 
对 于 内 生 回 归 元 (X,,,X, ) 的 情况 ,假定 19.2 不 成 立 。 令 (2 ,Z ) 表示 
(X X, ) 的 工具 变量 。 取 决 于 对 内 生 回归 元 所 施加 的 约束 ,我 们 可 以 做 出 如 
下 两 个 假定 之 一 : 
假定 19.3 REF 站 Dj 和 (vvX ao 
X, ,) 两 项 是 同 分 布 的 。 
假定 19.4 ”误差 项 wv 和 vw 条件 于 (XX OX Z Z ,4,) 是 同 分 布 的 。 
在 假定 19.3 下 ,e(Y, -Xia,X a) 和 e(Y, -X a, X a) RFX Xiao 
2Z,,2Z, ,1 ) 是 同 分 布 的 。 这 也 暗示 着 
E(e(Y, —X.o Xa) — e(Y, -X œX a) l X aX .,Z,,Z,) = 0 
(19.89) 
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"i g B * Kx =, g a x 


因此 ,a 可 以 从 条 件 矩 约束 (19. 89 ) 通 过 GMM 被 一 致 地 估计 出 来 。 注 意 条 件 
(19. 89) 不 要 求 X ,a, >0 AK X; ,a 20, fE X, a,>0 概率 为 1 AK X, a, > 
0 的 条 件 下 ,我 们 可 以 从 审查 点 去 掉 X, ,, 且 修正 审查 误差 项 如 下 : 

v(Y, -Xa,X a X, x.) = max|Y, - X'a, - X a, , X, Jt, | 


Bs 


= max|u, +v,- Xr a, ,一 "A I 
v(Y, - X'a,X' e X, a) = max|Y, -Xra, - Xi œ’ = XI a, | 
= max|u, +v,, -X er, - Xr a| 
假定 19.4 意味 着 
El|[s(Y, - X'a,X' ,a, yo OE E AE O T e T? a a ) j 
IX ət a z E] =b (19.90) 


613 再 次 ,a 可 以 从 条 件 矩 约束 (19. 90) 通 过 GMM 被 一 致 地 估计 出 来 。 
上 面 描述 的 观点 可 以 很 容易 地 被 应 用 到 如 下 动态 潜在 因 变 量 面 板 数 据 
模型 : 
Y° = pY., + X'a +p, * v, 


"“ 


I (19.91) 
Y, = max|0,Y, | 


u 


为 了 说 明 这 一 点 ,假定 回归 元 ,是 严格 外 生 的 。 注 意 这 个 模型 不 同 于 其 他 
的 Tobit 模型 ,因为 滞后 的 潜在 因 变 量 是 不 可 观测 的 。 首 先 ,我 们 选择 一 个 子 样 
本 ,对 某 些 s<t,Y, ,>0。 那 么 ， 
Y -PYT X'a = max[u, +v, - pY.._ 
Y, -PY 
假定 了 ,独立 于 v, 和 wv.(s<t) 是 合理 的 。 男 一 方面 , Y' ,从 而 了 ,不 
独立 于 v,。 假 定 p >0 ,那么 条 件 于 了 ，>0, 记 
e( 了 - pY; ,一 和 ap + X'a,X'a) 


- X'a]| 


一 X'a = max|u, +v, -PY;,- X'a]| 


= max| 了 - pY}, - X'a, 4 X'a, 一 Xa} 


= max|A +v, -PY - X'a, - X'a| 
e(Y, -pY X'a,X'a) = max| Y. -PY - X'a, 一 X'al 
= max|A +v,» -PY - X'a, - X'a| 
注意 ,条 件 于 了 ，>0, 以 下 两 项 
maxi|A +v,» -pY,, - X'a, - X'a| 
maxiA +v,» -PY - X'a, - X'a| 
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不 是 同 分 布 的 。 所 以 ,为 了 恢复 对 称 性 ,我们 要 求 v, 和 vw 满足 相同 的 约束 。 例 
如 ,我 们 可 以 要 求 它们 满足 


min|A +v +z | 2 max | -pY.. -Xa, - X'a| (19.92) 


2 
因此 
Y’ > max|0,pY _ 


' + Xa -Xa >0 
q *& A m = pia X ,apY | > 0 


假定 19.5 ”对 任何 +, 误差 项 wx Av, ,条 件 于 (了 ,>0,X X ou) E|] y 


2 


Y` > max{pY, 


布 的 。 

在 假定 19.5 下 ,并 条 件 于 

A. = |Y , >0,Y >=>maxl0py ,+X a-X'al| 
以 及 
Y = maxip7，，+ X'a -pY ,= X’ ap | 
我 们 有 以 下 两 项 
e(Y, -PY -Xa,pY, , +X, e, X a) 
e(Y -PYT X ap, + X' a,X’'a) 

是 同 分 布 的 。 

这 导致 了 下 面 的 条 件 矩 约束 : 


El1(A,)[e(Y, , -pyY,,—-X' a,X'a) 
-e( 了 Y -pyY,, ,+X" a,X a)]l X X I| =0 
参数 a WET AME ER REE AR 346 TF HO fh TF E Wr EBE nl, 
像 Hu(2002) 那 样 被 完全 推导 出 来 。 


19.9.2 离散 选择 面板 数据 模型 


Tobit 模型 提出 的 非 线性 差分 方法 的 一 个 关键 方面 是 潜在 因 变 量 是 部 分 可 
观测 的 ,使 得 可 以 使 用 修剪 来 恢复 误差 分 布 的 对 称 性 。 而 这 种 技术 对 于 面板 数 
据 离 散 选择 模型 是 不 起 作用 的 ,因为 潜在 因 变 量 不 可 观测 ,从 而 必须 开发 一 种 
新 的 非 线性 差分 方法 。 在 本 节 ,我们 回顾 这 些 新 的 非 线性 差分 技术 。 我 们 从 面 
板 数 据 二 元 选择 模型 开始 ,给 定 为 

Y =1iXatp +v, >0], i=1,2,-- ,N, t = 1,2,.…,7(19.93) 
其 中 XX, 是 随时 间 变 化 的 解释 变量 向 量 ,x, 是 个 体 特定 截 距 ,w, 是 误差 项 。 注 意 
对 于 任何 两 时 期 :+ 和 s, 简 单 的 时 间 差 分 得 到 
, 1|X'a +u, + v, > 0| -1{X'a +p, + v, > 0| 


i X'a Pi 
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€ 3 ç 部 3 š $ g 


取 期 望 ,我 们 得 到 
E(Y -Y | X X ,pp) =PO, >- Xra-pl X X ) 
-P(v, >-X'a - t | X ,X u.) 

很 明显 ,简单 的 时 间 差 分 没有 消除 个 体 效 应 ,除非 X a = X' a, Manski 
(1987) 观 察 到 车 右边 差分 的 概率 有 与 Xa - X' o 相同 的 符号 , 则 了 -了 .与 
sgn(XX'a -X.a) 是 正 相关 的 。 基 于 这 个 观察 ，Manski 提出 一 个 最 大 得 分 估计 
量 ,其 最 大 化 * 样本 相关 性 ,被 给 出 为 


N 
Qa = arg max > >` (Y. = EX sgn( (X, - X y) G) 
Q i=l s< 


很 明显 ，Manski 的 估计 量 通过 符号 函数 被 定义 在 差分 数据 上 。 因 为 符号 
函数 是 非 线性 的 ,我 们 将 这 种 方法 也 称 为 非 线 性 差分 。 

为 了 确保 差分 后 的 概率 有 与 X'a - X a 相同 的 符号 ,我 们 施加 如 下 的 条 件 : 

假定 19.6 IJIEM s <t, RÉM v 和 vw 条件 于 (X,,X,,p) 是 同 分 布 的 。 

如 同 针对 Tobit 模型 的 假定 19. 1 ,假定 19.6 是 较 弱 的 。 它 没有 要 求 设 定 误 
差分 布 , 并 且 它 允许 依赖 数据 和 异 方差 。 在 一 些 附加 条 件 和 对 模型 参数 的 比例 
正规 化 (scale normalization ) 下 ,Manski(1987) 证 明了 最 大 得 分 估计 量 的 一 致 性 。 
然而 ,他 的 估计 量 既 不 是 YN 一 致 也 不 是 渐 近 正 态 分 布 的 。 他 的 估计 量 的 非 渐 
近 正 态 分 布 的 产生 是 由 于 非 平 滑 的 目标 函数 。 若 应 用 Horowitz( 1992 ) 建议 的 平 
滑 技术 ,得 到 的 估计 量 可 以 被 证 明 是 渐 近 正 态 分 布 的 ,虽然 收敛 速度 仍 低 于 
VN; 具 体 参 见 Kyriazidou(1997) 以 及 Charlier, Melenberg 和 van Soest( 1995) 。 

可 以 直接 将 Manski( 1987 ) 的 思路 扩展 到 如 下 的 非 参 数 面板 数据 模型 : 

Y, =llz(X.) +u, +v, >0}, i=1,2,-- N, t = 12... T 
(19.94) 
其 中 zg( : ) 的 形式 未 知 。 令 下 式 表 示 逼 近 于 g(x) 的 一 个 非 参 数 序列 函数 
p' (x)'m = RE +t + p. (u), 
今 


m = arg max > > (Y. - Y.) x sgn( (p'(X ) -p'(X.))'m) 


HS lx) =p'(x)'m。 然 后 ,使 用 Shen(1997) 和 Manski (1987) 发 展 的 技术 ， 
&(x) 可 以 被 证 明 在 sup #fl L, 范 数 下 是 一 致 的 。 

回 到 式 (19.93) ,如 同 假定 19. 1 的 情况 ,假定 19.5 排除 先决 解释 变量 如 渍 
后 因 变 量 的 情况 。 若 允许 有 先决 解释 变量 , 则 Honoré 和 Kyriazidou ( 2000 ) 使 用 
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的 技巧 可 以 在 这 里 被 用 来 估计 模型 (19. 93)。 具 体 地 ,分 解 X' a = X a + 
D ,并 且 假 定 艺 ,是 先决 解释 变量 ,考虑 三 个 时 期 r<s<te Honoré 和 Kyriazid- 
ou 提供 的 见解 得 到 如 下 的 佑 计量 : 


a -arg max Y ze u e), =Y) 


x sgn( (X, - X. )'a, + (X, -X..)'a,) 
Hp K( : ) KIR 3 8142 p EO Honoré 和 Kyriazidou 证 明了 这 个 估计 量 的 一 
致 性 。 
对 于 具有 h(x) =g (X) +g,(XX,) 的 非 参 数 模型 (19. 94) , 令 下 式 表 示 对 
g, (X ) 的 通 近 : 
p'(X.)'m, = p(X te + Pu Xm 
令 下 式 表示 对 g,(X,) 的 逼近 : 
p(X, T, = p, (X,)zr, + tp, CX) 
Honoré 和 Kyriazidou ( 2000 ) 的 思想 又 可 以 得 到 如 下 的 估计 量 : 


x arg max Y' >, Kua (Y, =R 


x sgn[ (p(X) - pr (X. )) T, 

+ (P(X) - p(X, ))'m,] 
HP K =K((X -X,)/h ), TAWE é (e) phl : )'m 一致 地 估计 了 
g,( * Fo 

Manski( 1987) 的 非 线 性 差分 方法 在 一 定 意义 上 是 一 般 性 的 , 即 与 二 元 选择 

模型 正常 要 求 的 条 件 相 比 , 它 要 求 的 条 件 弱 很 多 。 这 种 一 般 性 的 代价 是 估计 量 
既 不 是 VN 一 致 也 不 是 渐 近 正 态 分 布 的 。 因 此 ,一 个 很 自然 的 问题 是 ,我 们 是 否 
可 以 通过 施加 一 个 更 强 的 条 件 来 达到 VN 一 致 和 渐 近 正 态 分 布 。Andersen 
(1970) 通 过 考虑 模型 (19. 93 ) 的 一 个 Logit 版 本 回答 了 这 个 问题 。 他 的 非 线 性 
差分 思想 基于 条 件 最 大 似 然 方 法 。 令 


= 
其 取 值 在 10,1,…,7|, 因 为 Y e 10,1|。 HES y, 取 值 在 10,1|。 那 么 
Andersen 建议 通过 下 式 估 计 a: 


617 


618 
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了 
=l 3. rate] 
t=1 
exp | , Xy, X ‘| 
k 2. Y, 


其 中 D RRO, ,yz) 所 有 可 能 组 合 的 总 和 ,有 ER 


ty Aa 


N 
Q = arg max > ln 
a jal 


E E 这 
个 条 件 可 以 很 容易 地 扩展 到 式 (19.94) 的 Logit 版 本 ,其 中 
| s exp( X Yp) rr) 
m = arg max > In 一 


> an| X r,e) 


H (x) =p'(x)'m,. Shen(1997 ) 准确 地 证 明了 &(x) 平 滑 函 数 的 一 致 和 渐 近 正 
态 性 。 

为 了 在 面板 数据 Logit 模型 中 允许 有 先决 解释 变量 ，Honore 和 Kyriazidou 
(2000) 要 求 至 少 有 三 个 时 期 并 且 提出 了 如 下 的 估计 量 : 


a = arg max Y > 1HY, +Y = 1} K, P 


[exp( (X, - X. )'a, + (X, - X,) %1] 
i + BA p -En a + (K. - X.) e ) 
这 个 估计 量 有 通常 非 参 数 的 收敛 速率 。 

总 之 ,我 们 知道 最 大 得 分 估计 量 不 是 VN 一 致 的 ,但 它 对 误差 项 的 分 布 只 施 
加 了 很 弱 的 约束 。 另 一 方面 ,条 件 最 大 似 然 估 计量 是 VN 一 致 的 ,但 要 求 对 误差 
项 的 分 布施 加 一 个 非常 强 的 假定 。 很 自然 地 会 问 是 否 存在 对 误差 分 布 的 其 他 
约束 ,使 得 对 于 模型 的 参数 是 VN 一 致 的 估计 量 。 遗 憾 的 是 , Chamberlain( 1993) 
对 于 这 个 问题 给 出 了 令 人 惊讶 的 消极 答案 。 他 证 明 即 使 误差 是 独立 同 分 布 且 
独立 于 解释 变量 和 个 体 效应 ,模型 的 参数 也 仅 在 Logit 的 情形 下 可 以 被 WN 一 致 
估计 。® 因此 ,为 了 得 到 对 于 非 Logit 模型 的 一 个 VN 一 致 估计 量 ,必须 对 解释 变 
量 和 个 体 效 应 之 间 的 相关 性 施加 额外 假定 。Honoré 和 Lewbel( 2002 ) 要 求 存在 
一 个 “特别 的 回归 元 ” , 它 是 连续 的 有 有 限 的 支撑 且 独 立 于 个 体 效 应 和 误差 项 。 


x ln 


Q@” 当 和 参数 没有 被 识别 时 ,如 何在 动态 离散 选择 面板 数据 模型 中 对 参数 规定 界限 , 参见 Honoré 和 
Tamer( 2006 ) 。 
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< 人 - %* 14 5 x > = 


这 个 特殊 的 回归 元 的 作用 是 将 个 体 效应 从 非 线性 函数 中 移 除 。 具 体 地 , 记 
Xa = X. +X 

其 中 已 ,是 一 个 特殊 的 回归 元 ,出 于 可 识别 目的 其 系数 标准 化 为 1,X,, 表 示 先 决 
回归 元 。 对 于 任何 两 期 r>s, 令 Z RB PJ s 时 期 的 由 所 有 先决 变量 组 成 的 工 
具 变 量 。 在 一 系列 正则 性 条 件 下 , Honoré 和 Lewbel 证 明 

ES -11X, > 0j ’) 

fox 1 X ,Z.) 

其 中 了 表示 人 允许 随时 间 变 化 的 条 件 密度 。 通 过 时 期 r+ 和 s 之 间 简 单 的 时 间 差 分 
现在 可 以 消除 个 体 效 应 ,参数 可 以 通过 简单 的 工具 变量 方法 来 估计 。 具 体 参见 
Honoré 和 Lewbel 。 


= Z X w +E(Zu,), t=r,s 


ü 2 


19.10 证 明 


19. 10.1 定理 19.1 的 证 阴 


因为 这 个 证 明 类 似 于 第 2 章 中 定理 2.2 的 证 明 , 这 里 我 们 仅仅 提供 一 个 
概要 。 


证 明 : 我 们 记 
B(x) - B(x) = mh(x) /f(x) 
其 中 
m(x) = [ë(x) - g(x)]f(x) 
我 们 进一步 记 
m(x) = m (x) +m,(x) 
其 中 


ù (x) = EF (g(X,) -g(x))K, , /NT 


m,(x) = 站 "K , 0T 
我 们 首先 考虑 m (x) RHE, Em, (x))=0, HH E(u IX.) =0。 为 了 评价 
var(m,(x)) ,我 们 考虑 N 和 了 都 很 大 的 情况 ,并且 我 们 假定 =p, +v, IF p, 
是 独立 同 分 布 (0,r 。 ) ,, 是 独立 同 分 布 (0,o, ) ,并 且 jy, 和 vw 是 互相 独立 的 。 
那么 我 们 有 619 
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R “ E i% E ë # $ 说 


var( m, (x)) = E[(m,(x))°] 


(NT)` "2212, Elu,u,K,,, K anl 


(NT?) ku +Y EWK aKa) 


it Nh,ü,x 


£ XX EG, K... K...) | 


m, (z) + m, ,(x) + m, ,(*) 


现在 ， 
m, (x)= (NT) EÇ uK} ,.] = (NT) “Elo (X )K a] 


= (NTH ) [xso (x)f(x) +o(1)] 
使 用 第 18 章 的 引 理 18. 1 ,我 们 有 
M,=EIK ,.K, 1”] 


(xx ) dx da, 
= H f! K(u)K(v) If (x + hu,x + hv)dudv 


< c H°” 
620 同样， 


ma 1 = (CN | DE EWK, Ki) | 
< CNT)” X D ELOK aKa) 


t 3⁄4 


| 


< C,N`'f(xz)° + EN > pr" 
r=1 


= O(N) + O((NH”'™ 71) = o(1) 
因为 TH =o(1) 以 及 0<5<1。 
类 似 地 ,我 们 可 以 证 明 


| m | < E ki Sasha s, d =s o(1) 
r=1 


2,3 


492 


第 19 章 面板 数据 模型 


Gi &* % 强 8 8 SE s € 


综合 以 上 我 们 已 经 证 明了 
l 





var(r,(x)) = TH Kto (x)f(x)[1 +o(1)] (19.95) 
通过 第 2 章 中 完全 相同 的 证 明 ,我 们 可 以 很 容易 地 证 明 
E[m (x)] = Y hB (z) to (Zw) (19. 96) 


通过 使 用 B 混合 不 等 式 , 像 我 们 推导 式 (19. 95 ) 那 样 ,我 们 可 以 证 明 
var(m (x)) = o| Y R (NTH') ' | 


因此 , h(a) 的 方差 首 项 和 偏 误 首 项 在 式 (19. 95) 和 式 (19. 96) 中 给 出 ,其 与 第 2 
章 中 考虑 的 独立 数据 情形 有 相同 的 形式 。 
类 似 地 ,可 以 证 明 


MSE[f(x)] = o[ > 六 + (NTH) | 
其 暗示 着 /(*) -f(x) =o,(1)。 因 此 (中 心 极限 定理 成 立 的 条 件 也 可 以 被 证 
实 ) 


VMIH, | ¿GO - zG) - Y h.B,G) | 


~ /NTH, (z) - m(x) - Y hB, (a) |z 
— N(0,x<*o° (z)/f(z) 依 分 布 收敛 口 
19.10.2 Wang 估计 量 均 方 误差 首 项 的 计算 


在 这 一 节 我 们 给 出 计算 Wang(2003) 估计 量 ¿(z) 偏 误 首 项 和 方差 首 项 的 
大 体 证 明 。 我 们 首先 证 明 一 个 引 理 。 
引 理 19.1 邻 &.,(z) 表 示 g(z) 的 第 1 步 估计 量 ,那么 


K, < l —< 
Bin(z) - z(a) = Z D hg, (2) + WDC 2 > (Zo), 


l > 2 2 K,(Z,,z) É, ) 18. = g(a)i + e Vg.) 


(19.97) 





其 中 
K, = KORL 
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< w: ë e 3 p 


8, = É. lY,,z(Z,),- .g(Z,)] = eB = Do, 
= D + (Nh, “k y 2. 
622 证 明 : (Z (z), £) ( z) ) 在 (g(z),g'"(z) 处 ) 使 用 一 阶 方程 (19. 10) 的 


[1] 


— Taylor 展开 式 ,我 们 有 
0 = N E2 K,(Z,,z)G,(z,h) L, (°) 
E s) = g(s) 
+N SS K(Z, ,2)G (z,h)G (z,h)' £ (， Pn Ai 
fal iai n (2) -5 (z) 
+o (n,) (19. 98) 


其 中 变量 (，) 被 给 出 为 
|Y gu (Za) BE(z) [ (Z, -z)/h]'g (z) ,Bt (Zir) 


很 容易 证 明 
N'Y K,(Z,,z) £, .,G,G,— E[K,(Z,,z) CC,G，] 


¿uz ü i ¿u i ü 


1 ， 
KAF -afo ' NES k, = fk(v)o?dvo 因此 式 (19.98) 导 致 


Aa) (Bz) - g(2)) = Z > > K, CZ) Cal) + o,(N7'2) 
+ 


其 中 
1 N m” 1 N T 
KORE YK (Z, E C) = HD DK 


- tel 


x [et, -g(z) - [(Z, -z)/h]'g” (2)) 


Ea E3 z" (Y. = &, 8,12 | 


RMD A, H A, = 4,, + 4,,, 其 中 4,, 是 从 A, 中 将 g... ( ° ) 替 换 为 
623 g( + ) 而 获得 的 , Ay =4, -A,,。 注 意 Y,-g(2Z,) =u, ,我 们 有 


= Th SS, ,z)[o (8(Z2,) -g(z) - [(Z, -2)/h]'g" (2))] 
1 — < u 

FIY KD) Y o'u, 

=Å +A (19.99) 
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其 中 4 和 4, 的 定义 应 该 是 显而易见 的 。 
E A m PH gZ) E z Ak Taylor 展开 ,得 到 


Aa = > K.(Z,,z)o"[ (Z, -z)]g”(2)[(Z, _ z) ]' 


(19.100) 
+o ,| >) 
可 以 证 明 , A,n = BE(4，) +o (m,) ,并 且 ( 见 习题 19.6) 
BE(4im) = ŻA) > hig, (2) tof X) (19.101) 
HP g (z) =0 g(z)/G2 (r=1,.,g)。 
接 下 来 ， 
A,, = ñ, 一 Ay 
ADER (ZoD D o"lêun (Z) - (Z) (19.102) 
这 就 完成 了 引 理 19. 1 的 证 明 。 口 


&(z) -&(z) 的 方差 首 项 来 自 Q (z) -'4,,,。 它 的 零 均值 和 渐 近 方差 ,被 给 
定 为 (见习 题 19.2) 


Q(z) var( A,n) = gey Nh) +o((Nh,---h.) ') (19. 103) 


重复 应 用 引 理 19. 1 ,导致 5(z) -g(z) 的 偏 误 首 项 被 给 定 为 式 (19. 14), # 
仅 迄 代 一 步 , 那 么 偏 误 被 给 定 为 4, 和 4,,,1=1, 而 名 ,1,(2,) =é (Z) RE 
忽略 结构 的 g(Z,) 的 传统 估计 量 。 因 此 ,在 这 种 情况 下 , 偏 误 首 项 变 成 (见习 
题 19.7) 


2 2? 


> wfe, A z1} (19. 104) 


r=1 


19.11 J 题 


习题 19. 1 对 于 单 向 误差 成 分 误差 结构 ,推导 由 式 (19.3) 定 义 的 &E(x) 的 
渐 近 方差 , 即 =y, +v, HP p, 是 独立 同 分 布 (0,c,) ,v, 是 独立 同 分 布 (0， 
o, ) ,考虑 如 下 的 三 种 情况 : 

(i) N—e ,7 是 有 限 的 。 

(ü) 7 一 o ,N 是 有 限 的 。 

(ui) N 和 了 都 是 无 穷 的 。 
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< r y P- 3 返 区 = 


习题 19. 2 证 实 v 的 渐 近 方差 确实 是 由 式 (19. 17) 给 出 的 。 
提示 : 
var(v,) = (2(2z) 2N”! > EIK; , e, 2 'E( uu | #)2 c] + (s. o. ) 


= Q(z) N RCR) > f(z)E[lo" | Z, = z] + (s. o. ) 


= k /[ Q(z)Nh, , h ] + (s.o. ) 
JEP (s.o) K É sr, B E[K,,,K,.] =0(1), 其 小 于 E[K,.] = 


O((h, ph) 一)。 
习题 19.3 推导 式 (19.42)， 
提示 :从 式 (19.40) 开 始 ,接着 加 上 和 减 去 a,(z) + [ (Z, —z)/h]'a, (z) , 然 


au (z) £, (2) 
Eana | 
a (z) B811 (z) 
625 习题 19.4 推导 式 (19.44) 和 式 (19.45 ) 。 
习题 19.5 利用 式 (19. 64 ) 来 证 明 式 (19. 65)。 
习题 19.6 证 明 式 (19. 101)。 
提示 :首先 ,通过 Taylor 展开 ,我 们 有 
A. = N” > > K, OZ - z)'g'? (s) (Z, s) * R. 


(R, 是 Taylor 展开 中 的 余 项 ) 。 那 么 ， 
E[A n] = eTo S" sta (a) +o(l hl’)) 


习题 19.7 ”证 明 式 (19. 104), 
提示 :来 自 4,, 的 项 在 习题 19. 6 中 被 证 明 。 来 自 4,, 的 项 通过 £ (2,) - 
g(Z.) 的 偏 误 首 项 得 到 。 
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第 20 意 非 参 数 估计 
应 用 专题 


EE 


x + m 


在 本 章 ,我 们 将 考虑 文献 中 已 经 出 现 过 的 一 些 非 参 627 


数 方法 的 有 趣 应 用 。 因 为 这 些 专题 不 太 适 合 放 在 之 前 
的 任何 一 章 , 所 以 我 们 把 它们 结合 在 一 起 作为 单独 的 一 
章 , 有 关 的 方法 在 之 前 适当 的 章节 都 已 提 到 。 我 们 希望 
此 处 包括 的 这 些 应 用 能 够 加 强 非 参数 方法 潜在 的 广泛 
应 用 ,并 且 我 们 也 鼓励 读者 从 事 自己 的 应 用 工作 。 


20.1 连续 时 间 模 型 的 非 参 数 方法 


20.1.1 连续 时 间 模 型 的 非 参数 估计 


在 本 节 ,我 们 讨论 连续 时 间 扩 散 模 型 的 非 参数 方 
法 ,我 们 关注 扩散 过 程 的 非 参 数 估计 和 参数 扩散 模型 的 
非 参 数 检验 ;参见 Cai 和 Hong( 2003) 以 及 Fan(2005 ) ， 
他 们 提供 了 关于 连续 时 间 金 融 模型 的 非 参 数 方法 的 
综述 。 
连续 时 间 模 型 在 金融 方面 已 经 被 广泛 使 用 来 捕捉 
重要 经 济 变量 的 动态 ,如 利率 、 汇 率 及 股票 价格 。 例 如 ， 
Black 和 Scholes( 1973 ) 提 出 的 著名 的 “期 权 定 价 模型 ”， 
以 及 Cox, Ingersoll 和 Ross( 1985 ) 的 “期 限 结 构 模 型 ”。 
假定 潜在 的 状态 变量 服从 如 下 描述 的 一 个 扩散 过 程 : 
dX =u(X)d + co(X)dW (20.1) 
ehu DACO AAE X, 的 “漂移 "( 瞬时 均值 ) 
和 “扩散 "(瞬时 方差 ),W, 是 一 个 标准 的 布朗 运动 。 模 
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型 化 这 些 过 程 的 一 个 参数 方法 是 设 定 w( . ) 和 O ) 的 参数 函数 形式 ,例如 ， 
p(X, 0A (X, ,0) ,其 中 9 是 有 限 维 的 参数 。 在 设 定好 A( ` Mo ) 的 函 
数 形式 后 ,接着 就 可 以 着 手 估计 0; 参见 Gallant 和 Long(1997) 关 于 0 的 最 小 距 
离 估计 以 及 Ait-Sahalia(2002) 的 近似 的 最 大 似 然 方 法 。 然 而 , 像 所 有 参数 方法 
一 样 ,预先 的 设 定 可 能 与 DGP 是 不 一 致 的 ,因此 ,研究 者 可 能 倾向 于 非 参数 
方法 。 

漂移 和 扩散 项 是 极 小 变化 时 (te [0,7] ) 的 前 两 个 条 件 矩 , 即 


1 X,, - s 
p00 = os 
2 
o’ (X) = lima ua -2 | >z] (20.2) 
å—0 A t 


假定 数据 是 等 间隔 的 ,|X.,} "是 可 观测 的 离散 样本 。 样 本 大 小 为 n = 
TV4。 使 用 离散 数据 , 则 可 以 分 别 通过 4 E[X,,,,。- X, UX] 和 
A 'E[(X oa X.) IX  ] 来 逼近 A(x) 和 oz(x)。 两 种 情况 下 的 近似 误差 都 
是 0O(4) ;详细 情况 参见 Stanton( 1997) 以 及 Fan 和 Zhang(2003) 。 上 面 的 论证 
提示 可 以 通过 如 下 的 式 子 估计 yj(，) 和 oo (… ): 
_ 1 2, (Xa “£ h (s = XZ.) 
a(x) = po (20.3) 
> k(x 


2 
p3 sasa ú :pp k(x = X ,) 


g` (x) = (20.4) 


1 
' Sk(s Ka) 
IEP k (v) =h 'k(s/h), k( ' ) 是 满足 式 (1.10) 具 有 有 界 支撑 的 二 阶 核 。 
定义 
m (x) = [L(x) -p(x) Jf(x) (20. 5) 
其 中 


然后 我 们 有 


R(x) -p(x) = ñ (x) /f(x) 
使 用 我 们 在 定理 1.4 中 使 用 过 的 相同 的 证 明 ,我 们 知道 
f(x) = f(x) + O(h? + [In(n)/(nh)]J'2) a.s. 
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b N a s & 8 Be ag # 


于 是 ,我 们 有 
u(x) -u(x) = m (x)/f(x) +o(m (zx)) a.s. 
假定 f(x) >0, 我 们 将 证 明 
MSE[m (x)//(x)] = O(A? + h° + (nhA)`') 


其 暗示 着 
lx) -p(x) = 0 (A +h + (nhA)™®) 
类 似 地 , 若 我 们 定义 
m,(x) = (0°(x) -a° (x))f(a) (20.6) 
则 


o’ (x) -o° (x) = m, (x)/f (x) = ñ,(x)/f(x) +o(mñ.,(x)) a.s. 
我 们 也 将 证 明 
MSE(r,(x)) = O(A? +h + (nhA) 一 ) 


其 暗示 着 o (x) 是 一 致 的 。 

Bandi 和 Phillips( 2003 ) 以 及 Fan 和 Zhang(2003 ) 建立 了 如 下 的 结论 。 

定理 20.1 假定 X 是 一 个 平稳 B 混合 Markov 过 程 , 具 有 混合 系数 B =p', 
对 某 些 0 <p <1, 边 缘 概 率 密度 函数 f(x) 是 有 界 且 连 续 的 ,u(x) 和 oo (x) 都 是 


二 次 连续 可 微 的 , 且 有 一 00 , T— oo ,A—0,h—0 (回忆 E = fiko), K = 
fewa) , Wg” (x) =d'g(x)/dr',s =1,2) 
(i) E[m (x)/f(x)] = Tk [u (z) +2 E) (z)/t) (z)Zf(z) ] 


+ 入 [ao(z)n(z) +p (z)o2 (a) 


+o(A 二 说 
H var[ ñ (x)/f(x)] = (nhA) 'go?(z)/f(x)[1 +o(1)], 


(ü) E[ñ,(x)/f(Gz)] = [2 +(o?) 2 (a)Ju(z) 
[2 (x) + 二 (co02 oa} 


tE LC) (z) +20” (z) (z)Zf(z) ] 
+o(A+h’) 
H varl ñ, (2) /f(x)] =pro (w) /f(x) [1 +o(1) 1, 
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[i] w < 3 kË + 名 Va g 


定理 20.1(i) 的 证 明 在 20. 1.5 节 被 给 出 。(ii) 的 证 明 与 (i) 相似 从 而 被 
省 略 。 

注意 定理 20. 1 告诉 我 们 4&(x*) 和 o (xz) 有 不 同 的 收敛 速度 。c (x) 的 一 致 
性 仅 要 求 当 "一 “时 (了 可 以 被 固定 )j 一 "0 ,而 A(x) 的 一 致 性 要 求 一 个 更 强 的 条 
件 , 即 7= nA 一 w (这 意味 着 n 一 wm ,因为 4 一 0)。 因 此 , 铬 7 不 足够 大 , 则 
(` ) 的 准确 估计 比 对 co (， ) 的 准确 估计 困难 得 多 。 

Bandi 和 Phillips(2003 ) 建立 了 对 于 A(x) 和 co (x) 的 几乎 确定 收敛 以 及 渐 
近 分 布 结果 。 在 与 定理 20. 1 相同 的 条 件 下 ,并且 假定 A =o(h°) , Bandi 和 Phil- 
lips 证 明 

VTh[&(x) -p(x) -kr (z) ] 一 (0,< 依 分 布 收 剑 (20.7) 
其 中 
r (a) = [u OSO (a) Ix) + n? (z) 


并 且 渐 近 方 差 可 以 通过 Ko (x)/f (x) 被 一 致 地 估计 。 他 们 同样 证 明了 


Vnh[ o (x) - o'(x) - kT ,(=)] — n(o, TLE) kan at 





(20.8) 
其 中 


Lala) = x (co aAa) + (2) O] 


并 且 渐 近 方差 可 以 通过 kz*(x)Mf(x) 被 一 致 地 估计 。 注 意 当 4A =o( 尼 ) 时 ,与 
有 关 的 偏 误 项 是 可 以 忽略 的 。 因 此 , 式 (20.7) 和 式 (20.8) 有 与 尼 成 比例 的 偏 误 
首 项 。 

式 (20.7) 和 式 (20.8) 的 证 明 在 Bandi 和 Phillips ( 2003 ) 以 及 Bandi 和 
Moloche(2005 ) 中 被 给 出 。 推 导 如 上 结论 使 用 的 一 个 关键 假定 是 X, 的 平稳 性 。 
对 于 非 平稳 数据 ，Bandi 和 Phillips 以 及 Moloche 提出 通过 下 式 来 估计 ula) 
和 o° (x): 
> k (2 7 X p(X ) 


a(x) a n 
2 k (x _ Z.) 


> k.(= i Xa) (Xa) 
m (a) s 2 —I¿——————————.. (20.9) 


aa k (a-g) 
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其 中 631 
a(x) = A™ s 1 AS sD in Xa) 


(7T+1)4 Tå 


Fla) = A s, (s) a - K.) 


Hw, = 1(1X -xl <b)/ 510 X , -xl<0), 此 处 5=4 是 一 个 依赖 于 7 


和 的 平滑 参数 。 他 们 同样 建立 了 对 于 ww(xz) 和 c (x) 的 一 致 和 渐 近 结果 。 
对 于 非 平稳 数据 , 式 (20. 8) 中 的 所 x) 必须 被 替换 为 所 谓 的 局 部 时 间 , 即 


L (x) = lim z f 10X, e A,)di 


其 中 4, =(x -A,x+A) ,并 且 正 态 分 布 必须 被 替换 为 一 个 混合 的 正 态 分 布 。 例 如 ， 
VTh[A(x) -让 六] 依 分 布 收 敛 于 一 个 混合 正 态 随机 变量 , x“[L,(x)]“'Z, 其 
ey gs 
式 (20.1) 给 出 的 时 间 同 质 扩散 模型 的 一 个 限制 是 它 不 允许 时 间 效 应 。 一 
个 更 加 一 般 的 时 间 依 赖 扩 散 模 型 被 给 定 为 
dX = p(X,t) + o(¥,t) dW (20. 10) 
如 同 在 式 (20.2) 中 的 情况 ,我 们 有 


A(X ,0) = ian a E r] 


2 -H (z. - X) 
o (X ,t) 5 limE[— |x] 


(20.11) 
其 表明 一 个 回归 框架 对 于 估计 jy(x,t) 和 oo a) EA 

然而 时 间 异 质 模型 暗示 着 X 是 非 平稳 的 ,因此 非 参数 方法 的 渐 近 结论 将 
更 难 建立 。 在 一 般 时 间 异 质 下 非 参 数 漂移 和 扩散 估计 量 的 渐 近 性 质 在 现在 是 
未 知 的 ,当然 值得 进一步 研究 。 

相关 的 著作 包括 Fan 和 Zhang(2003 ) ,他 们 提出 使 用 局 部 线性 方法 来 估计 632 
下 面 的 时 间 变 化 系数 扩散 模型 。 

= [e (t) +a (XJ]dt +B (t)dW (20.12) 

其 中 a ( ° ).e ( ) 和 有 B(…) 的 函数 形式 是 未 设 定 的 。 


20.1.2 连续 时 间 模 型 的 非 参数 检验 
利率 .汇率 和 股票 价格 的 动态 经 常 被 模型 化 为 一 个 连续 时 间 扩 散 过 程 。 然 


501 


633 


502 


非 参 数 计量 经 济 学 


而 ,经 济 理论 很 少 提供 关于 连续 时 间 模 型 的 函数 形式 。 因 此 ,对 于 参数 连续 时 
间 模 型 的 正确 设 定 的 检验 是 很 重要 的 。Ait-Sahalia ( 1996) 以 及 Gallant 和 
Tauchen(1996 ) 发 展 了 对 于 扩散 模型 的 非 参数 和 半 参 数 检验 ,而 Fan, Zhang 和 
Zhang( 2001 ) Corradi 和 Swanson ( 2005 ) Hong 和 Li(2005 ) ,以 及 Li 和 Tkacz 


(2006 ) 提出 了 其 他 的 检验 。 在 接 下 来 的 两 节 , 我 们 讨论 Ait-Sahalia 以 及 Hong 
和 Li 的 检验 。 
20.1.3 Ait-Sahalia 的 检验 
Ait-Sahalia ( 1996) 考虑 如 下 连续 时 间 平 稳 扩散 过 程 : 
dX =p (X) +o (X)dW 
Hp u (X) 和 cv (X) 是 真实 的 漂移 和 扩散 函数 ,到 是 一 个 标准 布朗 运动 。 
Ait-Sahalia 考虑 了 如 下 检验 问题 ;对 所 有 x 和 某 些 9 e 9, 检验 原 假 定 jw (x) = 
J(x,0,) 以 及 a,(x) =a*(x,0,) JEP O EER ' 的 一 个 紧 集 。 他 建议 通过 检验 一 
个 从 参数 漂移 和 扩散 函数 (x,0) 和 oo (x,9) 推 导出 的 参数 边缘 概率 密度 函数 
来 间接 地 检验 原 假定 。Ait-Sahalia 证 明 对 应 于 (jw ,o”) 的 边缘 概率 密度 函数 是 
+” 2u(v,0) 
f(x,0) eff 2 ew } (20. 13) 
其 中 x J X es 一 个 正规 化 常数 ,以 保证 概率 密度 函数 的 
积分 为 1。 令 (x) 表示 真实 但 未 知 的 边缘 概率 密度 函数 。 可 以 通过 第 1 章 讨 
论 过 的 核 方法 来 估计 所 (*) ,我 们 把 其 表示 为 /(，) ,Ait-Sahalia 建议 通过 下 式 
来 估计 0: 
š s 1 - ° 2 
0 = arg min —- 2 [A(X.,0) -f(X.)] 
为 了 检验 原 假 定 ,对 几乎 所 有 x.f(x,0) =A (x) ,检验 统计 量 被 给 定 为 
M = a DY (f(X.,0) -f(xX,))"| (20. 14) 
在 一 些 正则 性 条 件 下 ，Ait-Sahalia( 1996 ) 证 明 在 原 假定 H :f(x,6) =f (x) 
下 ,对 几乎 所 有 x, 有 
[WB ]/P 5, N(0,1) (20. 15) 
其 中 


= [Sia | E k? (v)dv 
= ?| ~ Si firi [eo + oa] ds 
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> w 22 


20.1.4 Hong 和 Li 的 检验 


假定 一 个 状态 变量 XX 服从 如 下 形式 的 连续 时 间 扩 散 过 程 : 
dX = m, (X,t) +o (X,t)dW 

IEP u, (X M o (X ,1) 是 真实 的 漂移 和 扩散 函数 ,W 是 一 个 标准 布朗 运动 。 
我 们 有 兴趣 检验 原 假 定 :y。 和 oo 都 属于 一 些 参 数 族 ,比如 pe M, = lx(* ,*， ,9)， 
9e@|, 上 且 o,eM,=ilo(*',* ,9),9eB|, 其 中 8 是 一 个 有 界 有 限 维 的 参数 
空间 。 则 原 假定 被 给 定 为 对 某 些 9 < @, 

H :Plu(X,t,0) = po(X,t),o (X ,t,0) =o, (X,t)] =1 

. (20.16) 
备 择 假定 是 上 面 的 概率 严格 小 于 1。 基 于 (近似 ) 参数 模型 来 估计 0, 的 方法 参 
见 Gallant 和 Tauchen 以 及 Ait-Sahalia(2002 ) 。 

我 们 将 使 用 | 下 }* ,来 检验 上 面 的 原 假定 ,1X |* EX | 在 时 间 跨 度 7 
间隔 4 上 观测 到 的 一 个 离散 样本 ,所 以 样本 大 小 是 m=TAA。 令 忆 (x,tly,s) 是 
X 的 转移 密度 , 即 给 定式 =y,s<t B] X =x 的 条 件 概 率 密度 函数 。 在 下, 几 
乎 处 处 有 p,(x,tly,s,0,) =p,o《(x,tly,s)。 因 此 ,也 可 以 通过 比较 p, (x,t1y,s) 
的 参数 和 非 参 数 估 计量 来 检验 H o Aii, Hong 和 Li( 2005 ) 提 出 的 一 种 更 简单 
的 方法 涉及 引入 下 面 的 动态 概率 积分 变换 : 


A 
2,(0) = | p[=,rA1 X. a. (r -1)A,0]dzx, r = 1,=-,n (20.17) 


(r-1)A” 

根据 Rosenblatt(1952) ,可 以 证 明 在 有 下 ,|12,=2,(9,)1", 是 独立 同 分 布 
U[0,1]( 即 均匀 )。 因 此 ,可 以 通过 检验 |2Z,| 是否 是 独立 同 分 布 V0[0,1] 序 列 来 
检验 H ,用 这 种 方法 我 们 可 以 避免 估计 原 模型 ,而 原 模型 是 很 难得 到 的 ,因为 封 
闭 形 式 似 然 函 数 对 于 大 部 分 参数 扩散 模型 是 不 存在 的 。 

Hong 和 Li(2005 ) 建议 对 某 些 整数 j, 检 验 Z 与 Z, 是 否 是 独立 同 分 布 
UL0,1] 的 随机 变量 。 令 g (z, ,z, ) 表 示 |2,,2Z,_,| 的 联合 概率 密度 函数 , 则 可 以 
通过 比较 g (z, ,z, ) 与 一 个 二 维 的 均匀 概率 密度 函数 来 检验 有 ,这 个 二 维 的 均 
匀 概 率 密度 函数 等 于 两 个 U[0,1] 的 边缘 概率 密度 函数 的 乘积 ,其 中 


š L < > > 
有 (z， ,2, ) = er Z )k (z,,Z _) (20. 18) 


JEH Z =Z (0), H 
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m = 5 & 所 m Ë x = 





h'k(? 7 引 / f kod, x e [0,h) 





k (x,y) = h 2), x e [h,l -h] (20.19) 


h r( 2) Í kod, ratis kA1 


EE k (x,y) 是 一 个 边界 修正 核 函 数 ,上 ( ) 是 满足 式 (1. 10) ,具有 支撑 
635 [ -1,1] 的 一 个 二 阶 核 (参见 式 (1. 43 ) 关于 不 需要 在 支撑 [ -1,1] 上 的 一 个 普 
通 的 边界 修正 核 ) Hong 和 Li(2005 ) 建 议 基于 下 式 来 检验 也 


UG) = f | (aG) - Jasa, 


] " 1 + N N 
"GOD 2 1 kG 2002.1 

x [k.(z ,Z )k,(z,,Z__.) - 1]dz dz, 
下 面 我 们 建议 通过 在 MOU) 中 移 除 (= s 的 项 来 得 到 MM()) 的 一 个 轻微 的 修改 , 即 


Sn l n n 1 .1 ç: à 8 
MQ) sT, 2 |C 25k...) - 11 


=j+l s#t 


x [k,(z,Z,)k,(z,,Z ) - 1]dz dz, (20.20) 
Hong 和 Li(2005) 证 明了 接 下 来 的 结论 。 在 如 F, 
nhM(j)/G 一 N(0,1) 依 分 布 收敛 (20. 21) 


其 中 
ó, = 2[[ [[ Cku + kw) do] du] 
IÙ (20. 21 ) 的 证 明 在 Hong 和 Li(2005 ) 的 定理 1 的 证 明 中 给 出 。 我 们 修改 


的 检验 与 Hong 和 Li 的 原始 检验 M(7) 的 唯一 差别 是 我 们 修改 的 检验 MO) W 
一 个 非 零 的 中 心 项 。 

Florens-Zmirou( 1993) 首先 给 出 了 扩散 o'( + ) 的 非 参数 估计 的 渐 近 理论 ; 
但 是 ,她 没有 考虑 估计 漂移 项 上 (') 的 问题 。Jiang 和 Knight(1997 ) 考虑 了 
和 ( ° ) 和 A(，) 的 非 参 数 估计 。 他 们 获得 了 (x) 的 一 致 估计 ,但 是 没有 提供 
收敛 速度 或 者 是 (x) 的 渐 近 分 布 。Fan 和 Yao(1998 ) 考虑 使 用 局 部 线性 核 回 
归来 估计 w (，)。Ait-Sahalia(1996) 提 出 在 漂移 函数 的 参数 设 定 下 估计 扩散 
过 程 的 一 个 半 参 数 过 程 。Stanton(1997 ) 提出 了 非 参 数 估计 e (…) 和 jy(… ) 的 
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w k be a & 


高 阶 近似 ,而 Fan 和 Zhang( 2003 ) 对 于 高 阶 近似 进行 了 更 深入 的 分 析 ,并 且 推 导 
了 非 参 数 扩散 和 漂移 估计 量 的 收敛 速度 。Bandi 和 Nguyen (1999 ) 认为 对 于 扩 
散 和 漂移 的 任何 阶 数 的 近似 表现 出 同样 的 收敛 速度 ,并 且 有 相同 的 渐 近 方差 ， 
所 以 和 计算 问题 相连 接 的 渐 近 理论 建议 在 实际 中 可 以 简单 利用 一 阶 近 似 。 
Bandi 和 Phillips( 2003) 首先 给 出 了 在 一 般 条 件 下 非 参数 漂移 估计 量 的 渐 近 分 
布 理论 (例如 ,允许 非 平 稳 ) Bandi 和 Moloche(2005 ) 将 Bandi 和 Phillips 的 工 
作 扩展 到 多 元 扩散 模型 。 一 般 时 间 异 质 扩散 过 程 的 非 参数 估计 的 渐 近 理论 仍 
然 是 未 知 的 。 

因为 篇 幅 的 限制 ,我们 不 讨论 跳跃 扩散 模型 ,虽然 它 对 于 模型 化 出 现在 金 
融 数 据 中 的 大 的 冲击 和 波动 性 来 说 是 有 用 的 ;关于 跳跃 扩散 模型 参见 Cai 和 
Hong(2003 ) 和 其 中 的 参考 文献 。 


20.1.5 证 明 


在 本 节 ,我 们 概述 定理 20. 1(i) 的 证 明 。 
式 20.1(i) 的 证 明 :由 式 (20.1) ,我 们 有 


(141+1)4 (1+1)4 
É T. = Í p(X )du + | (X )dW 
tA “ tå š : 


(4+1)4 tå 
HERRA El) Zú(z)f(xz) ,根据 平稳 性 以 及 以 下 事实 : 
E| ox aw, i X, | =0 
(HA u>:1A) ,我 们 有 


Elé] = FE [ia s SL aA 


= +E 2 -of TME} ptt ylin 7 
É 


E[k (X, -x)u(X,)] 
=4 +A, (20.22) 
其 中 4,, 和 4, 的 定义 应 该 是 显而易见 的 。 
使 用 Ito 引 理 以 及 增加 和 减 去 一 些 项 ( 见 附录 A 中 的 式 (A. 14) ) ,我 们 有 
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w is 党 i & s pi & 


p(X) - (X. = [a (XCX, )ds 
+ 3 | CX) CX ) ds +B 
= p” (X. )a(X,)(u - tA) 
+ (1⁄2) (X .)o2(X )(u - tA) 


[la ADUA) -am (X. )u(X,))ds 


+ (1/2) | [a XR) -pK (X. ]ds + B, 
(20.23) 
其 中 B, = | z (X )e(X.)aw, 
对 式 (20. 23) 进 行 积分 得 到 (参见 习题 20. 1) 


(1+1)4 


Í aG) p(X) ldu 


-4 x yar ) + 全 Mi ot 
` > "u tå 4” a 29 tå 


(1+1)4 


-f | [u Eux -p XX ) lds | du 


[E [O08200 -u Aa Ag) Js |u 


(1+1)4 


+ Í B du (20.24) 
将 式 (20.24) 代 回 4,,, 且 注意 E(B,) =E[E(B IX.) ] =0, 我 们 得 到 
A, = 2E[k X.) [u (X (X) +a (x Do (x,)]]+ oa) 


68 ”其 中 0(4 ) 来 自 双重 积分 项 ,因为 两 个 积分 范围 都 是 0(4) 。 则 根据 一 个 变量 
变换 定理 ,我们 有 


E{k, (Xs - z) [a (X. uX) + (X.)o'(x.)]) 
= Ja + hv)k(v) [a (z + hv)u(x + hv) 
四 Tu (x + hv)o (x + hv) ] 
= flx) [u” (x)u( z) +n) (a)o2(a)] + O?) 
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È Ea ki = x i 1: < m 
因此 ,我 们 得 到 
A, = FF) pp) + Tat? (x)0 (z) ] + o(A) 
类 似 地 ,我们 有 


AA, = fk, Xa - DUA SA) AX 
" [ore + hv)f(x + hv) dv 


= p(x)f(x) + cal 


x [u (x)f Cx) + 2) (x)f (z) +(x)f (x)] +o(h’) 
总 结 以 上 ,我们 已 经 证 明了 





n (x) sÀ P 
E "h = x A A. - x)E 
ly f(x) 14 +A, -n(z)E[f(z)]] 
= Afu” (x)ula) + (1/2)p™ (x) 0 (a) ] 
k [at (a) +4 (a) (4) /f#)] + oh + A) 
接 下 来 , 令 


£ akit =a) J oax aw, 
可 以 证 明 , var(ñ (x) ) 的 首 项 来 自 var( ñ, (x) )( 见 习题 20.2) ,其 中 
ñ, (x) = (nA) SZ, 
现在 ， 
var(ñ.(x)) = (na) | Y var(z.) +0| = (nh:)-'var(Z ) 
(上 式 成 立 是 因为 cov(Z.,Z_) =0,1 关 s)。 因 此 ,我 们 有 


(1+1)4 
var(m, (x))= (na?) var| f k (X, -)e(X)aw,] 
3 (na) 12| [| G, -ecoaw.] ] + (8.0. )| 
= (a elf RA -wo (X, )du | + (s.o. )| 


= (nA’)” LA _ x) [[ eee], + (s.o.)| 


非 参数 计量 经 济 学 


= (na) | [re [ya 





A + (s.o. )| 
(nhA)™' |kf(x)o (x) +o(1)| 


因此 ， 
var( ñ, (x)/f(x)) = (nhA) ko (x)/f(x)[1 +o(1)] 
这 就 完成 了 定理 20. 1(i) 的 证 明 。 口 


20.2 ”平均 处 置 效应 的 非 参数 估计 


平均 处 置 效 应 的 测量 ,最初 限 定 在 医学 药剂 反应 关系 的 评价 中 ,今天 它 已 
被 广泛 应 用 于 一 系列 学 科 。 评 价 由 于 战争 导致 的 人 力 资本 损失 (Ichino 和 Win- 
ter-Ebmer( 1998 ) ) 以 及 评价 职业 培训 项 目的 效率 (Lechner(1999 ) Black, 
Smith, Berger 和 Noel( 2003 ) ) 是 其 中 的 两 个 例子 。 

一 个 测量 处 置 效应 的 流行 方法 包括 一 个 “倾向 得 分 "的 估计 。 倾 向 得 分 的 

估计 ( 即 接受 处 理 的 条 件 概率 ) 最 初 是 使 用 参数 指数 模型 ,如 Logit 或 者 Probit 
模型 来 进行 的 。 近 期 ，Hahn(1998) Hirano, Imbens 和 Ridder( 2003 ) 提出 平均 
处 置 效应 的 非 参数 估计 ,两 种 方法 都 是 基于 序列 方法 ( 见 第 15 章 的 介绍 ) 。 虽 
然 序列 方法 已 经 能 够 通过 利用 示 性 函数 方法 来 很 好 地 处 理 离散 协 变量 ,但 很 难 
将 例如 那些 在 第 4 章 中 介绍 的 平滑 离散 变量 的 技术 扩展 到 非 参 数 序列 框架 。 
给 定 被 用 来 评估 处 置 效 应 的 数据 集 经 常 包含 分 类 数据 的 优势 ，Li，Racine 和 
Wooldridge(2005 ) 建 议 通过 核 方法 来 估计 处 置 效应 ,平滑 离散 和 连续 协 变量 ,并 
且 使 用 数据 驱动 的 交错 鉴定 法 来 选择 平滑 参数 ;下 面 我 们 概述 这 种 处 理 。 正 如 
在 第 4 和 第 5 章 中 讨论 的 ,这 种 方法 的 一 个 限定 性 的 特征 是 它 允 许 平滑 掉 不 相 
关 的 协 变量 ,它们 是 连续 还 是 离散 ,导致 了 在 有 限 样本 背景 中 的 效率 增益 。 
” 有 关 涉 及 倾向 得 分 估计 的 相关 文献 ,参见 Heckman, Ichimura 和 Todd 
(1997 ,1998 ) ,以 及 Dehejia 和 Wahba (1999), 。 也 可 参见 Vytlacil 和 Heckman 
(2005 ) ,他 们 提出 使 用 边际 处 置 效 应 来 统一 处 置 效 应 的 非 参数 文献 以 及 使 用 一 
个 政策 不 变 参 数 的 非 参数 模拟 来 进行 结构 估计 的 计量 经 济 学 文献 。 虽 然 此 处 
我 们 没有 强调 潜在 内 生性 ,我 们 仍 要 提醒 感 兴趣 的 读者 参见 Abadie( 2003 ) ,他 
考虑 了 处 理 响 应 模型 的 半 参 数 工具 变量 估计 。 


20.2.1 模型 


我 们 使 用 一 个 哑 变 量 , t e 10,11 ,来 表示 一 个 个 体 是 否 接 受 处 理 , 即 1 =1 
是 接受 处 理 ,而 =0 是 没有 接受 处 理 。 令 Y(t) 表示 结果 , 则 
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ë 次 这 E x s BN & w: 


Y = 86Y(1) +(1-4)Y(0), i= 1,=*,n 
人 们 关心 的 是 平均 处 置 效应 , 它 被 定义 为 
r = ELY(1) -了 (0)] 
£ X 表示 一 个 预 处 理 变量 向 量 。 对 于 每 个 个 体 i, 我 们 观察 到 Y (0) 或 者 
Y (1) ,但 不 是 两 者 都 观测 到 。 因 此 ,在 没有 其 他 假定 的 情况 下 ,处 置 效 应 不 是 
一 致 可 估计 的 。 一 个 流行 的 假定 是 “ 非 混 杂 条 件 ”(unconfoundedness condition ) 
(Rosenbaum 和 Rubin( 1983) ) ,其 阐述 了 
假定 20.1 KEFA ,处 理 指标 : 独立 于 潜在 的 结果 。 
存在 协 变量 时 ,我们 通过 7(x) =E[Y (1) -Y(0)1X=x] 来 定义 条 件 平均 
处 置 效 应 。 在 假定 20.1 的 条 件 下 ,我 们 可 以 容易 地 证 明 
r(x) = E[Y It =1,X =x] -ElYIt =0,X =x] (20.25) 
式 (20. 25 ) 右 边 的 两 项 可 以 通过 任 一 非 参 数 估 计 技 术 被 一 致 估计 。 因 此 ， 
存在 协 变量 时 平均 处 置 效 应 可 以 通过 简单 平均 r(x) 而 获得 ,其 被 给 定 为 
T = Elr(X.)] 
令 E(Y IX.,t ) 被 表示 为 g(X ,z ) , 则 我 们 有 
e g(X.,,t) + u, (20. 26) 
其 中 E(u, 1X,t) =0。 
定义 g,(X) =g(X,t =0) 和 g,(X,) =g(X,,t =1), 我 们 可 以 重 写 式 
(20. 26 ) 为 
Y = gz,(X.) + [g,(X,) -g,(X.)]t, + u, 
= g (X) +r(X.)t, + u, (20.27) 
Kb (X, =a, (X) -g (X), 
由 式 (20. 27) 我 们 可 以 证 明 
T(X) = cov(Y,t | X )/var(t | X.) 


令 内, = ( X.) =P(t =1lX)=E(t IX) 
(因为 1 =10,1|) ,我 们 可 以 写 为 
(t — ,)Y 
= E X. = o? Sil EG t “s 20. 28 
r = E[z(X )] 1221 Eji (20. 28) 


KX u(X,) =P(t =1lX)=E(t 1X), 可 以 使 用 一 个 条 件 概率 估计 量 或 者 
是 一 个 条 件 均值 估计 量 来 估计 x(X)。 在 本 章 我 们 使 用 后 者 。 令 i(X) 是 的 
非 参数 估计 量 ,定义 为 





kar y + H (20.29) 
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~ J 


3 ~ 


其 中 天 , ERFA 28 f: AE Bt ARRA K EA var(1.1X,) = 
aC -jp,) ,平均 处 置 效 应 可 以 通过 下 式 来 估计 : 

; 21$ U =4(k))YM. i [ iK (1 OF] 
n ft i(X)(1 -i(xX)) nf) 1-iX)* ~ 


II 





(20.30) 
其 中 M =M (X ) 是 一 个 修剪 集 ,可 以 修剪 掉 边界 附近 的 观测 值 。 
除了 有 修剪 函数 W 的 存在 以 及 使 用 核 方 法 而 不 是 序列 法 , 式 (20. 30) 与 
Hirano 等 (2003) 考虑 的 估计 量 是 完全 相同 的 。Li 等 (2005 ) 证 明了 与 Hahn 
(1998) 以 及 Hirano 等 提出 的 基于 序列 方法 的 估计 量 有 相同 的 渐 近 分 布 。 现 在 
我 们 转向 一 个 实证 的 应 用 。 


20.2.2 一 个 应 用 :评估 右 心 导管 检查 的 效率 


通过 右 心 导管 检查 (RHC) 来 对 心脏 功能 进行 直接 的 测量 被 用 于 对 一 些 病 
危 病 人 的 诊断 和 引导 适当 治疗 。 传 统 观点 认为 RHC 的 使 用 导致 了 更 好 的 
结果 。 

Connors 等 (1996 ) 报告 了 一 项 研究 ,其 被 设计 用 来 评估 RHC 对 5735 名 需 
要 被 特别 护理 的 病危 病人 的 效率 。 他 们 进行 了 一 个 前 脆性 群 组 研究 ,检验 在 前 
24 小 时 住院 治疗 使 用 RHC 与 随后 生存 之 间 的 关系 。 他 们 总 结 出 与 传统 观点 相 
反 的 结论 ,在 那些 接受 RHC 的 人 中 ,死亡 的 可 能 性 更 高 ,即使 在 认真 控制 了 许 
多 风险 因素 后 。 

在 接 下 来 的 研究 中 ,Lin,Psaty 和 Kronmal (1998 ) 进行 了 进一步 的 分 析 来 决 
定 这 种 结论 是 否 可 能 是 由 于 未 测量 的 混杂 因素 的 存在 ,并 且 他 们 得 出 结论 ,这 
种 情况 不 可 能 ,虽然 他 们 也 总 结 出 死亡 的 风险 可 能 没有 Connors 等 (1996 ) 发 现 
的 那么 高 。 

然而 这 些 研 究 的 结论 依赖 于 其 中 使 用 的 参数 模型 的 适当 性 。Li 等 (2005 ) 
调查 了 这 种 未 预期 到 的 结果 事实 上 是 否 反 映 了 所 实施 的 限制 性 的 参数 设 定 。 

为 了 接 下 来 的 分 析 ,Li 等 (2005 ) 使 用 了 如 下 的 变量 : 

(i) 了 :结果 一 一 若 180 天 内 死亡 发 生 则 为 1 ,其 他 为 0。 

(ü) 了 :治疗 一 一 着 病人 住院 时 接受 了 一 个 Swan-Ganz 导管 则 治疗 则 为 1, 
其 他 为 0。 

(iü) X :性 别 一 一 女性 为 0, 男 性 为 1。 

(iv) X :种 族 一 一 黑人 为 0, 白 人 为 1 ,其 他 为 2。 

(v) X, :收入 一 一 11 000 以 下 为 0,11000 一 25 000 为 1,25000—50000 为 2， 
超过 50 000 为 3。 
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(vi) X,: 初 级 疾病 分 类 一 一 急性 呼吸 衰竭 为 1, 充血 性 心力 衰竭 为 2, 慢 性 
阻塞 性 肺 疾病 为 3, 肝 硬化 为 4, 结肠 瘤 为 5 ,昏迷 为 6, 肺 癌 为 7, 恶 性 多 器 官 功 
能 衰竭 为 8, 脓 毒 症 多 器 官 功能 衰竭 为 9。 

(vii) X :二 级 疾病 分 类 一 一 肝 硬 化 为 1, 结肠 瘤 为 2 ,昏迷 为 3 ,肺癌 为 4, 恶 
性 多 器 官 功能 衰竭 为 5, 脓 毒 症 多 器 官 功能 衰竭 为 6,NA 为 7。 

(viii) X :医疗 保险 一 一 医疗 救助 为 1 ,医疗 保险 为 2, 医 疗 救 助 和 医疗 保险 
为 3, 没有 保险 为 4, 私 人 为 5, 私 人 医疗 保险 为 6。 

(ix) X, :年龄 一 一 年 龄 (从 精确 到 两 位 小 数 存储 的 年 /月 /日 的 数据 形式 转 
化 为 年 ) 。 

我 们 观察 到 这 些 变量 大 多 数 被 自然 地 分 类 ,因此 这 个 应 用 很 适合 在 第 4 章 
中 介绍 的 混合 数据 核 方法 。 

基于 估计 量 的 参数 倾向 得 分 给 出 的 平均 处 置 效应 为 0.072 , 式 (20.30) 给 出 
的 非 参数 倾向 得 分 得 到 的 平均 处 置 效 应 为 -0.001。Li 等 (2005 ) 也 计算 了 参数 
和 非 参 数 倾向 得 分 的 混淆 和 矩阵 ,并 且 发 现 非 参数 方法 对 于 是 否 接受 RHC 处 理 
正确 地 预测 了 69.9% ,而 参数 方法 正确 地 预测 了 66.7% 。 对 于 这 个 数据 集 , 即 
使 可 能 的 单元 数目 为 18 144 ,其 远 超 过 记录 的 数量 (n =5735) , 非 参 数 方法 也 在 
预测 谁 接受 了 治疗 而 谁 没 有 接受 方面 好 于 参数 Logit 模型 。 参 数 方法 正确 预测 
了 5735 个 病人 中 的 3 828 个 ,而 非 参数 方法 正确 地 预测 了 3 976 个 ,多 正确 预测 
了 148 个 病人 。 加 权 估 计 的 参数 和 非 参 数 版 本 之 间 的 差别 反映 了 正确 分 类 病 
人 的 增加 数目 以 及 在 估计 出 的 接受 治疗 概率 上 的 差别 。 人 参数 模型 给 出 的 上 升 
的 风险 从 接受 RHC 而 增加 的 7% 下 降 到 使 用 非 参 数 方 法 时 的 大 约 0% 。 

为 了 评价 这 些 差别 是 否 是 由 于 偶然 导致 的 ,Li 等 (2005 ) 使 用 了 如 下 的 再 抽 
样 过 程 来 构建 7 的 样本 分 布 。 令 z= |y,x|， 

(i) 有 放 回 地 从 12 | ,中 随机 抽取 2Z ,把 |1Z*" 1", 称 为 自 举 样本 。 


j j=1 


(ú) 使 用 自 举 样本 来 计算 自 举 统计 量 +` ,与 在 获得 + 时 使 用 的 是 同样 的 


交错 鉴定 平滑 参数 。 
Gii) 重复 (和 (ii) 多 次 ,如 已 =399 次 。1# 12 ,的 经 验 累 积分 布 函数 可 
以 被 用 来 逼近 地 的 有 限 样本 分 布 。 


Li 等 (2005 ) 获得 了 对 于 参数 方法 自 举 95% 的 收敛 误差 边界 为 [0. 044, 
0.099] , 非 参数 方法 是 [ -0.038 ,0.011] 。 从 而 ,他 们 推翻 了 非 预期 的 参数 结果 
且 得 出 与 传统 观点 一 致 的 结论 ,病人 接受 RHC 治疗 不 会 遭遇 死亡 率 的 增加 。 
为 了 进一步 检查 这 个 结果 ,Li 等 (2005) 也 进行 了 一 些 敏感 性 分 析 。 使 用 似 然 交 
错 鉴定 而 不 是 最 小 二 乘 交 错 鉴 定 得 到 95% 的 收敛 误差 边界 为 [ - 0. 034, 
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0.013], 。 出 于 关心 非 参 数 结果 可 能 反映 “过 度 拟 合 ” ,他 们 计算 了 去 一 核 预测 , 
并 再 次 计算 自 举 误差 边界 。 对 于 最 小 二 乘 交 错 鉴定 去 一 估计 他 们 获得 的 95% 
的 收敛 误差 边界 为 [ -0.015,0.037] ,而 对 于 似 然 交 错 鉴 定 去 一 估计 他 们 获得 
的 95% 的 收敛 误差 边界 为 [ -0.007,0.039]。 

这 些 误差 边界 表明 参数 模型 显示 接受 RHC 导致 死亡 风险 的 显著 增加 ,而 
非 参数 模型 得 到 的 结果 是 差异 不 显著 。 这 并 非 反 映 了 由 于 使 用 非 参数 而 不 是 
参数 倾向 得 分 所 导致 的 任何 效率 损失 ,这 可 以 从 混 消 和 矩阵 的 样本 外 预测 结果 的 
比较 中 看 出 ,因为 一 个 正确 设 定 的 参数 模型 可 以 被 预期 表现 优 于 非 参 数 模型 。 


20.3 ”拍卖 模型 的 非 参 数 估计 


20.3.1 一 级 价格 拍卖 模型 的 估计 


自 Paarsch(1992) 创 造 性 的 工作 以 来 ,计量 经 济 学 家 在 估计 拍卖 模型 时 已 
经 完全 采用 结构 计量 经 济 学 方法 。 早 期 的 工作 主要 基于 参数 模型 ;参见 Donald 
和 Paarsch(1993 ,1996) ,以 及 Laffont, Ossard 和 Vuong(1995 ) 。 第 一 个 我 们 知 
道 的 非 参 数 方法 是 Cuerre，Perrigne 和 Vuong(2000) 的 著作 。 我 们 推荐 感 兴 趣 
的 读者 参见 Paarsch 和 Hong(2006 ) 对 拍卖 数据 结构 计量 经 济 学 的 一 个 详尽 的 
处 理 。 

假定 一 个 单一 不 可 分 的 物体 被 拍卖 ,所 有 的 出 价 是 同时 收集 的 。 标 的 被 出 
售 给 最 高 出 价 人 ,给 定 这 个 出 价 至 少 和 一 个 保留 价格 p, 一 样 高 。 在 独立 私人 价 
值 (IPV) 范 式 中 ,有 i=1,…,1 个 投标 者 。 个 体 i 不 知道 其 他 人 的 私人 价值 
v (ji) ;然而 ,所 有 投标 者 的 私人 价值 被 假定 是 从 一 个 具有 绝对 连续 概率 密度 
KAO ) 的 已 知 累 积分 布 函数 (，) 中 随机 抽取 的 ,绝对 连续 概率 密度 函数 
fO: ) 有 紧 支 撑 [v,s]CR ,p。e[v,v]。 

不 完全 信息 下 唯一 对 称 微分 贝 叶 斯 纳什 均衡 被 Riley 和 Samuelson ( 1981 ) 
特征 化 为 如 下 简洁 的 形式 。 第 i 个 投标 者 的 均衡 标价 b. 被 给 出 为 

= (F(u))"'du = s(v,,F,1,p,) — (20.31) 

给 定 b Spo 3 Fh AE e de ER ft eF ) 中 的 一 阶 微分 方程 而 得 到 的 ,给 定 为 
f(v.) 1 
Fl(v) s” (v,) 
其 具有 边界 条 件 s(p。) =p。。 均 衡 策 略 (20. 31) 在 [p,,v] 上 关于 wv 是 严格 递 
增 的 。 


l = (s -s(v))(1-1) (20.32) 
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在 实践 中 ,出 价 是 可 以 被 观测 的 ,而 私人 价值 是 不 可 观测 的 。 假 定 保留 价 
格 p, 不 是 粘性 的 , 即 p。=v, 有 s(v,) =v。 令 OC RXR b, 的 累积 分 布 函 数 ， 


g( ` ) 表 示 它 的 概率 密度 函数 。 对 每 一 个 be [5,5] =[v,s(5)], 因 为 
b=s(v) MARTA 
G(b) = P[ <b] = P[ s < s!(b)] = F(s'!(b)) = F(v) 
G( - ) 是 连续 的 并 且 g(b) =f(v)/s'n(v) ,其 中 =s (0)。 取 比值 为 
g(b)/G(b) = f(v)/[F(v)}s® (v) ] 
式 (20.32) 可 以 变 成 


sb (20. 33) 

方程 (20. 33 ) 证 明 个 人 私人 价值 v, 可 以 被 表示 成 个 人 均衡 出 价 b. 的 一 个 
函数 。 因 此 ,如 果 可 以 获得 6(，) 和 g(， ) 的 一 致 估计 ,就 可 以 通过 式 (20. 33) 
由 估计 出 不 可 观测 的 私人 价值 vo Guerre 等 (2000) 进 一 步 证 明 G( - ) 是 唯 
一 可 识别 的 ,给 定 CC b) = || 0.) EC ,6,1) 在 [4,6] 上 是 严格 递增 


的 , 且 它 的 逆 是 可 微 的 。GCuerre 等 (2000) 建 议 采用 如 下 的 两 阶段 估计 过 程 。 假 
定 有 上 个 同 质 拍卖 和 相同 数目 的 投标 者 I。 在 第 一 步 先 通过 下 面 的 式 子 估计 
G( ` )#lg( `) 





g (b) -gar s) (20. 34) 


PEO ) 是 具有 紧 支 撑 的 一 个 核 函 数 ,h 是 平滑 参数 。 
为 了 避免 在 边界 处 的 估计 偏差 ，Guerre 等 (2000 ) 建议 使 用 由 下 式 定义 的 

修 前 数据 : 

V, =B, + C(B,)/[(1 - 1)8(B,) ] 
如 果 

B „ +p/h/2 < B, < B „ -ph/2 (20.35) 
其 中 p BERKO ) 的 (有 限 ) 长 度 , B AB ， 是 最 小 出 价 和 最 大 出 价 。 则 可 
以 通过 下 式 估计 /(… ) 


f(x) -二 一 | (20.36) 


1=1 





其 中 岂 在 式 (20.35) 中 被 定义 ,其 剔除 了 边界 观测 值 。 
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假定 k(， ) 是 一 个 > MASO )# v 个 有 界 连续 导数 ,我 们 知道 估计 
f( ， ) 的 最 优 一 致 收敛 速率 是 (n/nn)”** ,其 中 n= 江 ( 见 Stone(1982) ) 。 然 
而 ,在 这 种 情况 下 ,6, 是 可 观测 的 ,而 v, 是 不 可 观测 的 。Guerre 等 (2000) 证 明 在 
这 种 情形 下 ,f(。 OESO ) 的 最 优 一 致 收敛 速率 是 (n/Inn)”*》。 利 用 h = 
c(n/Inn) 779 R h =c (n/In n) 79 ,以 上 估计 量 /(* ) 达 到 了 这 个 最 优 的 
速率 。 这 个 收敛 速率 改变 的 发 生 是 因为 一 个 生成 回归 元 的 出 现 。 根 据 一 个 
Lipschitz 类 型 条 件 ,收敛 速率 与 当 使 用 核 方法 估计 导 函 数 时 达到 的 是 一 样 的 。 

Guerre 等 (2000) 将 他 们 的 结论 也 扩展 到 了 异 质 拍卖 的 情况 以 及 在 不 同 的 
拍卖 中 投标 者 可 能 改变 的 情况 。 考 虑 工 个 异 质 拍卖 。 令 表示 第 ! 个 被 拍卖 
标的 的 相关 特征 向 量 ,1 表示 在 第 1 个 拍卖 上 的 投标 者 数目 。 现 在 ,对 于 第 1 个 
拍卖 ,投标 者 的 私人 价值 V, 的 分 布 是 私人 价值 给 定 为 (X,,1) 下 的 条 件 累积 分 
布 函数 F 1X,,1)。 类 似 地 ,GC(， ) 变 成 C( 1X1), ER (20. 31) MR 
(20. 33 ) 变 为 


Tn KS, X.,1))”'du 
= s( V.,,X,,1,) (20.37) 
V = 有 p1 Cul Kh) e A dd 
“ a f 1 gibi Xh) “ 1 -18g(B,,X,,1) 
=¿(B,,X,,l,) (20.38) 


其 中 ,f#E=K(20.38)rB T] f ( X ,1 ) 的 边缘 概率 密度 函数 ,从 而 使 它 变 成 
了 一 个 无 条 件 累 积分 布 函数 对 一 个 概率 密度 函数 的 比率 。 
假定 X 有 q 个 连续 成 分 和 r 个 离散 成 分 ,我 们 可 以 通过 式 (20. 34) 估计 
G(b,x,i)#flg(b,x,i)o 
当 拍 卖 是 异 质 时 ，Guerre 等 (2000) 建 议 通 过 下 式 估计 C ) 和 g(， ): 
C(b,x,i) = + T+ xa, < b)K,(X,,x) Li,A) 


l 


à t DQ i 
EO) = TÈ T È BoD K(X LUi A) (20.39) 
私人 价值 V E FK akhir: 
V, = B, -——(B,,X,,1) (20.40) 


其 中 风 (5,x,i) =C(n,x,i)/8(b)。 然 而 ,六 在 (B,X,1) 支 撑 的 边界 是 由 的 一 个 
渐 近 有 偏 估计 量 。Guerre 等 进一步 介绍 了 一 个 在 支撑 边界 附近 可 以 调整 观测 
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值 的 修剪 函数 ;关于 调整 函数 的 详细 情况 参见 Guerre 等 。 
20.3.2 条 件 独 立 的 私人 信息 拍卖 


Li, Perrigen 和 Vuong(2000) 将 IPV 模型 扩展 到 条 件 独立 私人 信息 (condi- 
tionally independent private information ,CIPI) 的 情况 。 令 c 表示 投标 者 i(i = 
1,…,n) 的 私人 价值 ,v 表示 共同 价值 。 令 F,( ° MF, ( ` 1 。) 分 别 表示 o 
的 累积 分 布 函 数 和 给 定 v 下 = 的 条 件 累积 分 布 函 数 , 有 相对 应 的 概率 密度 函数 
fOO O 1 ) 以 及 非 负 支 撑 [v,5] 和 [og,o]。CIPI 模型 假定 投标 者 的 
信号 o, 在 给 定 共同 价值 v 下 是 条 件 独立 的 ,因此 


所 ao) = So) | [Coilo) (20.41) 


Li $ (2000) 考虑 了 严格 递增 可 微 对 称 贝 叶 斯 纳什 均衡 策略 的 情况 。 参 与 
者 i 选择 他 的 出 价 b 来 最 大 化 
E[ (U, -b)1(B < b,) | ø] 
其 中 
B =s(Y), Y = maxo, 
并 且 s( - ) 是 均衡 策略 。 一 阶 条 件 是 
[Yeo) - s(o0,) lfa, (0l o.,) 


r (0) F (c c.) 


(20.42) 


其 中 
UCA = E[U(c ,t) | cj, 了] 
F ( . 1. ) 表 示 给 定 o F Y, 的 条 件 累积 分 布 函 数 ,f, (1 . ) 是 它 的 概率 密 
度 函 数 。 
当 保留 价格 是 非 粘 性 时 , 解 被 给 出 为 


b =s(0) = V(o,0,) - f Lea! o,)dV(a,a) (20. 43) 


g 


其 中 
L(al cz.) = exp| - ffir! u)/F (ul u)du 


ERMER B BE UC, v) = e ,从 而 每 个 投标 者 的 私人 信息 是 其 个 人 
的 效用 函数 。 为 了 可 识别 ,Li 等 (2000) 假 定 r = m,.n, 是 独立 同 分 布 且 均值 等 
于 1, 并 且 w #l n, 是 相互 独立 的 。 

令 6 COLM (CO 1 ) 分 别 表示 给 定 5, 下 B, 的 条 件 累积 分 布 函 数 
和 概率 密度 函数 , 则 
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$ B x: > z s w 由 #: 


Gu,(X I X,) = P[B < X. I b = X] 


Bi b 


= nE < a (X)! e, = r'(X,)] 


=F Cs (XYls (XK)) (20. 44) 
H. 
ga UE, 1 X.) (20. 45) 
利用 式 (20. 44) 和 式 (20.45) 以 及 og =s …(b) , 则 式 (20.42) 可 以 被 写 为 
V(o,o) = b + dle a = £(b,G) (20.46) 
g, (bl b) 
可 以 使 用 在 20.3. 1 节 讨 论 过 的 那些 类 似 的 方法 由 下 式 来 估计 o : 
In(o) = ln(v) + I(m,) = Inc + Ing, 
其 中 


Inc = Ins + Ellnn], lne, = Inn, -Elln”,] 
基于 可 观测 出 价 b,,i=1,…,n,1=1,…, 上 ,我 们 通过 6,,(* 1 )/ 
Èn, C 1 ) 来 估计 C, I (1 Eaa C 1) 其 中 


|e i 
G, (B,b) = TES 1(B, < B)K, (b,,b) 


Ena (Bb) - +> $) k, (B,,B)k, (b,,b) (20. 47) 
650 ”利用 式 (20. 46) 我 们 通过 下 式 估计 
2; Gp, (bal a 
V, = b, p Emeta a) = = €(b.,) 


gms (ba | b,) 

如 20. 3. 1 节 讨 论 的 ,为 了 避免 边界 效应 ,一 些 修剪 是 必需 的 。Li 等 (2000 ) 
建议 修剪 掉 那 些 对 应 在 标价 支撑 [0,b,.] 边 界 h 距离 内 标价 的 V AH. 

接 下 来 ,可 以 通过 下 面 的 式 子 在 n 个 投标 者 中 估计 任何 两 个 投标 者 的 1n V. 
的 联合 特征 函数 : 
STEN, 2, Ly exp( iu, In V, + iu, ln V ) 

接着 可 以 通过 下 面 的 式 子 估计 对 xse[lnce,lnc],yse[ine,insl,c 和 e 的 
概率 密度 函数 : 


(wa) = 


f(x) = Lf $ (2) d: (20.48) 
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fo) = Lf e”, od (20. 49) 
其 中 了 是 一 个 平滑 参数 ,并且 
Ə(0,u,)/ə 
$. (t) - || — = A de du, (20. 50) 
w(0,u,) 
由 (t) = (1,0)/9$.(1) (20. 51) 


最 后 ,我 们 通过 下 式 来 估计 人/(- MUC): 

f(a) =f (x+ E(Inm)), f (x) =/f.(x-E(Inn)) (20.52) 
其 中 E(Inn) = -InE(e)。 

Li 等 (2000) 建 立 了 f.(，… ) 对 A/(…) 以 及 f(… ) 对 /(… ) 在 一 些 正则 性 条 
件 下 的 均匀 一 致 性 ,包括 当 L 一 % 时 ,7 相应 发 散 于 % 。 

一 个 重要 的 实际 问题 是 怎样 在 投标 者 信息 的 私人 和 共同 价值 模型 间 进 行 
选择 。Haile, Hong 和 Shum(2003 ) 发 展 了 在 一 级 价格 封闭 式 投标 拍卖 中 对 共同 
价值 的 检验 。 他 们 的 检验 是 非 参 数 的 ,并 且 仅 仅 要 求 观测 值 是 在 每 个 拍卖 被 提 
交 时 的 报价 。 在 Haile 4 (2003 ) 中 报告 的 美国 森林 服务 木材 拍卖 的 实证 应 用 表 
明 混合 证 据 不 支持 私人 价值 的 假定 。 


20.4 多 元 分 布 的 基于 copula 的 半 参 数 估计 


最 近 ,所 谓 的 “copula "已 经 引起 了 许多 当之无愧 的 关注 ,尤其 来 自 那些 工作 
在 银行 和 保险 行业 的 人 。 对 于 copula 应 用 在 金融 方面 的 一 个 综述 ,参见 Em- 
brechts , McNeil 和 Straumann(1999) © 在 本 节 我 们 讨论 基于 copula 的 半 参 数 多 
元 分 布 的 估计 。 


20.4.1 copula 函数 的 一 些 背 景 


我 们 知道 自 Sklar( 1959) 的 开创 性 工作 以 来 ,具有 连续 边缘 累积 分 布 函 数 

F (x) =P(X <x) (j=1,…,p) 的 一 个 随机 向 量 (X,,… ,XX,) 的 联合 行为 可 以 

被 与 它 相 联 的 “copula 函数 "C 唯一 特征 化 ,对 于 所 有 (v,,…,v,) e110,1]", 该 函 
数 被 定义 为 

Cw,) = PCF (X) So F (X) < v) (20.53) 


(D copula 被 证 明 在 微观 计量 中 也 是 有 用 的 。 参 见 Lee(1983 ) 以 及 Trivedi 和 Zimmer( 2007 ) 对 copu- 
la 在 样本 选择 模型 中 的 使 用 ,Heckman 和 Honore(1989 ) 在 竞争 风险 模型 中 的 使 用 。 
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%* 名 8 Ey z = š8 EN X 


方程 (20. 53) RH copula 函数 本 身 是 一 个 累积 分 布 函数 。 此 外 ,通过 附录 
A 的 定理 A.2 可 知 , 每 一 个 成 分 中 = 已 ( 不 ) 有 一 个 均匀 边缘 分 布 。 
令 (x,，…,x,) 表 示 随 机 向 量 (X，，,…,X,) 的 联合 累积 分 布 函数 , 则 copula 
函数 将 边缘 分 布 与 联合 累积 分 布 函数 连接 如 下 : 
F(X,,--,X) = C(P( 和 ) F. (X,)) (20.54) 
令 F(.)(7=1,…,P) 和 ca) 分 别 表示 与 忆 (，)(7=1,…,P) 和 
CCo, ,…,,) 相对 应 的 概率 密度 函数 。 令 忒 表示 蕊 的 支撑 ,对 任何 (xz ，…,x ) 
e X x…x 灿 ,与 式 (20.54) 给 出 的 F( .) 相 对 应 的 概率 密度 函数 所 - ) 有 如 


f(w tat) = ec(F (x),",F (z )) EAER (20. 55) 
或 者 等 价 地 ， 
c(t stt) = fx, aa, )/ [TAC 
其 中 v =F (x) , j=1 ，»"""sPo 

方程 (20. 55 ) 表 明 copula 函数 完整 刻画 了 随机 向 量 (,… ,XX ) 的 依赖 结 
Wo RER, SHMA X ,…,X, 相互 独立 时 ,c(v,,…,v) 三 1。 

一 个 广泛 使 用 的 copula 函数 是 高 斯 copula。 令 表示 一 元 标准 正 态 累积 
分 布 函 数 , 令 0, ,表示 一 个 具有 零 均值 及 相关 和 矩阵 的 p 维 正 态 累 积分 布 函 
数 , 则 具有 相关 和 矩阵 了 的 p 维 高 斯 copula 由 下 式 给 出 : 

C(v;5) = @, (B° (v), B (v,)) 
其 中 "= (v ,…,v)。 它 的 copula 密度 是 
l 
c(v;XË) = 
- y det( X) 
> exp| - E -1 ) (P` (v) sD (um ) 

类 似 地 , 令 7 为 自由 度 v>2 的 标量 标准 上 分 布 , 令 T, ,为 具有 相关 和 矩阵 也 

的 p 维 标 准 1 分布, 则 具有 相关 和 矩阵 上 的 p 维 (标准 )t-copula 是 
Cr; £ v) = T, (T-(6),--,T-'(6,)) 





J H. t-copula 密度 是 
prt *pyj[r(z)] s i 
rn e Ca N y 2221 , 2 y 
š j=1 v- 


wa 
其 中 x= (x,,…,x,)', x, =T (wv,) ,关于 各 种 各 样 的 非 高 斯 、 非 对 称 copula 函数 
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可 以 参见 Joe( 1997) 和 Nelson ( 2006 ) 。 
20.4.2 半 参 数 基 于 copula 的 多 元 分 布 


在 本 节 我 们 讨论 Genest，Ghoudi 和 Pivest( 1995) 以 及 Chen, Fan 和 Tsyren- 
nikov (2006) 等 人 所 研究 的 半 参 数 copula 模型 。 这 类 分 布 由 一 个 以 非 参 数 边缘 
分 布 评估 的 参数 copula 郴 数 刻画 。 它 有 两 点 吸引 人 的 性 质 :(i) 它 允 许 人 们 为 
一 个 多 元 随机 变量 的 依赖 结构 和 边缘 行为 分 开 建 模 ;(ii) C T EgO JE 
题 ,因为 它 仅仅 包含 一 维 ( 未 知 ) 一 元 累积 分 布 函数 。 

若 选择 一 个 参数 copula 函数 ,比如 c(v,,…,v,;9) ,其 中 9e O 是 一 个 有 限 
维 参数 (比如 ,@ 是 R" 的 一 个 有 界 子 集 ) ,并 且 利 用 它 来 取代 式 (20. 55) 中 的 
cs ,sa ) (允许 边缘 分 布 上 ( ，) 未 设 定 ) , 则 得 到 的 多 元 概率 密度 函数 
tx ,sa ) 仅 仅 包含 一 维 非 参数 函数 / (xz ) ,) = 1,…,p。 于 是 达到 了 在 非 参数 
成 分 中 维 数 减少 的 目的 。 存 在 很 多 可 行 的 参数 copula 函数 , 且 通 过 选择 不 同 的 
参数 copula 函数 ,得 到 的 联合 概率 密度 函数 所 ，) 可 以 是 对 称 的 或 者 非 对 称 的 ， 
拥有 各 种 尾部 依赖 性 质 等 。 接 下 来 ,我 们 转向 式 (20. 55 ) 给 出 的 半 参 数 模型 的 
估计 。 

20.4.3 一 个 两 步 估 计 过 程 


一 个 简便 的 估计 方法 是 由 Oakes( 1994) 和 Genest 等 (1995 ) 提出 的 两 步 佑 

计 过 程 ,可 以 通过 下 式 来 估计 0: 
Ó = arg max | È Ine(F (Ki), P(X,) 0) (20. 56) 
其 中 下 式 :是 已 (zx ),J=1,…,p 的 重 设 比例 (rescaled) 经 验 累积 分 布 函 数 估 
计量 
P (x) = Ayia, < x) 

注意 这 里 的 因子 是 1/(n +1) 而 不 是 1/n。 这 种 重新 调整 避免 了 当 一 些 v 倾向 
于 1 时 ,ln1c(v ,…,v,;9)1 的 潜在 无 界 引 起 的 困难 。Genest 等 建立 了 以 下 总 结 
的 6 的 Vn 正 态 性 。 

对 j=1," ,ps 令 

lv p10, 50) = In|e(v, ,ee ,0,30) |, 


0 ln elo, 9, ;0) 
0.0 9800' 
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w 中 š$ lJ 2 x w N s> 


g ln elv, “i , 0) 
j ðv 00 


[Er <v) -ou] 


x lV sd, 0) cv ,9,0) dv du， 
Genest 等 (1995 ) 证 明了 如 下 的 结论 。 
定理 20.2 在 Genest 等 (1995) 给 出 的 正则 性 条 件 下 ， 
Va( ő -0) — N(0,V) 依 分 布 收敛 
其 中 V=B 5B ,B= -E[l (F (X ),--,F (X ),0)],3 B 


W V) 


X = varll (F,(X ),--,F (X ),0) + 3 W(X)] 
Genest 等 (1995 ) 也 提出 了 对 于 妃 和 七 的 一 致 佑 计量 。 B 通 过 下 式 来 估计 : 
Ë x= P I (F (X) e P (X. ):0) 
重 设 比例 经 验 copula 函数 可 以 通过 下 式 来 估计 : 
C Gs) =S JIE) < o) 


i=l j=l 


P (X .),6) ,并 且 令 
= Ü - > ar ox) < x) 
x1 (vss OLY ,sb DEOR (v ,0 ) 


= Ü -mn pa > fE) < F ,(X.)] 


1 


% I(F,0X ), E (X ) ,0 ) 
x UP (X)... F (X ),6) 
则 互 可 以 通过 | 六 上 ”的 样本 方差 来 估计 , 即 


| 


$= a" Y AA: 
i=l 


其 中 


A. = j -n> V 


以 上 讨论 的 两 步 估计 过 程 的 计算 是 简单 的 ,然而 , 一 般 都 不 是 有 效 的 。 我 
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z, a 8. < È ~i 5 ku x 


们 现在 讨论 一 个 有 效 估 计 过 程 。 
20.4.4 一 步 有 效 估 计 过 程 


Chen 等 (2006 ) 提出 了 一 个 一 步 基于 筛 的 有 效 估 计 方 法 。 他 们 建议 使 用 一 
个 线性 筛 (序列 ) 来 近似 边缘 概率 密度 函数 的 平方 根 , 即 


z, = {f= PEB AEL =1} (20.57) 


Jh K —= H K jn 一 0, 其 中 14,(，) k>) A T ERNIE, H la, :k 
>1| 是 未 知 第 系数 的 集合 。 

若 刀 = [0,1] , 则 近似 基础 函数 4,( ， ) 可 以 成 为 B 样 条 第 Spl(K,) ,或 者 多 
项 式 得 


Pol(K ) = [S ara e [0,1]:a, € R | 
sk f ff fi 
TriPol(K ) = fa, + x [a, cos( kmx) +b, sin(kmx)] ,x e [0,1]:a, € R | 


# X =R ,那么 如 果 概率 密度 函数 /(。 ) 接 近 于 指数 薄 必 , 可 以 使 用 在 Cal- 
lant 和 Nychka (1987) 中 给 出 的 Hermite 多 项 式 筛 : 


mnf e [e [AET 


x exp] - EVN, jf oe = !| (20. 58) 








其 中 ,>0,c >0, 和 a,eR。 
若 另 一 方面 , /(“ ) 有 多 项 式 厚 尾 ,可 以 使 用 样 条 小 波 筛 : 
J [r = [>> a,2*°B (2'x - D | ,Jf (x) dx = !| 
(20. 59) 


Jü B ( : ) 表 示 y 阶 的 基本 B 样 条 ,在 第 15 章 式 (15.2) 中 给 出 。 
令 a=(0',f，…,f.)' 并 且 令 


l(a,2,) = In f eC F, CR) se E ADO JAD | 
j=1 
同样 , 令 
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& 过 F s E S ° ba = 


A, =0x [I Fy 
其 中 线性 筛 空间 可 以 是 如 上 讨论 过 的 得 之 一 。Chen $ (2006) 提出 了 œ 的 如 下 
第 估计 量 : 
a = arg max y 1(a,Z ) (20. 60 ) 
FC ` ) 的 最 终 估计 量 由 下 式 获得 : 
F (zx ) = ho < x) f (y) dy 
Chen 等 (2006 ) 证 明 a 是 半 参 数 有 效 的 。 更 具体 地 ,他 们 还 证 明 
Vn(9 - 0) — N(0,1, (0) ') 依 分 布 收敛 
其 路 (9) ”和 是 任何 正则 估计 量 的 渐 近 方差 的 半 参 数 下 界 。 但 是 , L (8) 一 
般 没 有 一 个 封闭 形式 的 表达 式 。 然 而 ,Chen 等 能 够 为 1 (9) 构建 一 个 如 下 形式 
的 一 致 估 计量 。 令 
Ü UU) = (F. (X), F (X ))' 
1 (09) 的 一 个 一 致 估计 量 被 给 定 为 
1.(9) = min py |B (0,U ,-- U )'B (0,U ,--,U ) | 
ge Asv=1 p 一 p ni p 
(20. 61) 
其 中 
£ IN š _ ƏIne(Ú ,6) 
Bd by a—np 


“Toln (U ô) Ù; i 
; >, = l g (v) dv +g (Ü )| 
Chen 等 证 明 1 (0) -1 (0) =o,(1)。 注 意 式 (20. 61) 要求 一 个 最 优 过 程 ， 
因为 1,(9) 没 有 一 个 封闭 形式 的 表达 式 。 
边缘 累积 分 布 函 数 可 以 通过 下 式 来 估计 : 
F (x) = f f. (v) ae 
Chen 等 进一步 证 明 得 到 的 估计 量 F (x ) 是 Va 一 致 的 ,并 且 对 于 F (x) 是 
半 参 数 有 效 估计 量 , 即 
Van(F (x,) -F (x,)) — N(0,V,(x,) ) 依 分 布 收敛 
然而 ,一 般 V(x,) 没 有 一 个 封闭 形式 的 表达 式 。 然 而 ,仍然 可 以 获得 一 个 
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基于 筛 的 一 致 估计 量 , 比 如 V. (x ) 849 
V (x) = V, (%) +o (1) 

参见 Chen 等 对 于 V(x) 的 一 个 具体 的 定义 。 当 XX ，,…,X, 相互 独立 时 (在 这 种 557 
情况 下 c(w ，…z,;6) =1) , 则 

V(x) = F(x)(1 -F(x)) 
有 一 个 封闭 形式 的 表达 式 , 且 与 VAPF (x) CF C) ff 80 45 HH) J SR y 2 u 
吻合 。 对 于 更 普遍 的 情况 ,我 们 有 

V,(x) < F(x)(1 -F(x)) 

20.4. 3 节 和 20. 4. 4 节 的 估计 过 程 都 假定 所 选择 的 参数 copula 函数 是 正确 设 

定 的 。 在 实践 中 ,需要 检验 一 个 所 选择 的 参数 copula 是 否 确实 足够 接近 于 未 知 的 
真实 copula 函数 。 在 接 下 来 的 一 节 我 们 讨论 检验 一 个 参数 copula 函数 的 问题 。 


20.4.5 检验 一 个 copula 的 参数 函数 形式 


ZIC (v, 0):0e@| XF X=(X,,:- ,XX,) 的 一 类 参数 copula, R 
们 有 兴趣 检验 如 下 的 原 假 定 : 
H;j:P[C(s ,0 ) = C. (6 00)] = 1, 某 些 0 e @ 
其 中 @ 是 在 R" 上 的 一 个 有 界 子 集 。 备 择 假定 是 也 的 否定 , 即 
H :P[C(s 2 ) = Co ui0)] < 1 
令 Cu(zn ,ai6) 表 示 在 瓦 下 由 ,…，,V 的 联合 累积 分 布 函 数 , 即 
C (0,030) = Cv ,1,1;0,) 
(对 1>j,V,=1)。 同 样 , 令 C，(V;0,1V,，,…,V_,) 表 示 在 H, 下 给 定 (V，…， 


`C (v v ;0 ) 
C ;0 | E Š oj\ “i 0 
v(9/s0, 二 v) PEET 
1 
TA TL TLA, 
ðv ... Ov 


如 下 定义 新 的 随机 变量 Z 。 首 先 , 令 Z =V ,然后 对 j=2,…,p, 令 
Z = C (V01 V... V.) 
因为 copula 函数 是 一 个 多 元 的 累积 分 布 函数 ,由 Rosenblatt( 1952 ) 可 知 当 
且 仅 当 Ze, Z, 是 独立 同 分 布 0[0,1] 的 随机 变量 时 ,到 成 立 。 因 此 , 原 假定 
可 以 被 等 价 地 写 为 也 : P(g(2Z,,…,2,) =1) =1, 其 中 g(z,，…,z,) 是 2Z，,…,2Z， 
的 联合 概率 密度 函数 。 可 以 通过 下 式 来 估计 g(z ,…,z ) : 
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w g Ga GA * L n = x 





g (zz) = TE > [k,(Z,,z)] 
其 中 | 
k (Z ,z) = [Ik,(Z,.z) 

EL k, (æ y) E fE 20. 1.4 节 起 中 (20. 19) 中 定义 的 一 元 边界 修正 核 函 数 (具有 支 
HL -1,1] ,在 20.2.4 节 的 式 (20. 19) 中 被 定义 ) $ Z, =F (了 ) ,并 且 对 7= 
2,…,p, 今 

Z = C,(F(Y);61 F(Y,),,F (Y，)) 
其 中 6 是 在 原 假定 下 0, 的 一 个 让 _ 致 估计 (不 需要 是 有 效 估计 量 )。 这 个 检验 
统计 量 将 基于 
[f Leta) u l]'dz dz, (20. 62) 


注意 式 (20. 62) 包 含 两 个 求 和 (因为 有 ( 。 ) 包 含 一 个 求 和 ) , 即 Y Y, 


我 们 移 掉 =s 项 ,我 们 将 获得 如 下 的 检验 统计 量 | | dz = … f dz, dz): 





ES -1) (Z ,2)k, EA ,Z) dz 


t=] s 


-25 [4 ,z)dz + 1 (20. 63) 


Chen 等 (2006) 已 经 证 明了 接 下 来 的 结论 。 
定理 20.3 在 Chen 等 (2006) 给 出 的 正则 性 条 件 下 ,以 及 在 H F, 


T = n (heh )? 1/0, 一 N(0,1) 依 分 布 收敛 


= aff |. [k(s)k(u + v)dv]*du | 


注意 ,不 像 Chen 4 (2006) 考虑 的 原始 检验 统计 量 , 定 理 20.3 中 的 7 检验 
没有 非 零 的 中 心 项 ,因为 在 式 (20. 63) 中 我 们 已 经 移 除了 i=j 项 。 

如 上 的 T, 要 求 一 个 多 元 概率 密度 函数 g(z …,z ) 的 估计 。 当 p 较 大 时 ,将 
会 遭遇 维 数 诅 吕 问题 。Chen 等 (2006) 也 提出 了 另外 一 个 仅 包含 一 元 概率 密度 
函数 估计 的 检验 。 它 基于 这 样 的 事实 ,在 已 下, W = YI D(z) 有 一 个 好 
分 布 。 令 Pa(w) 表 示 一 个 好 随机 变量 的 累积 分 布 函 数 , 则 开 a(W)# U[0,1] 


其 中 
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分 布 。 这 激发 了 Chen 等 去 构建 一 个 基于 |! [£ (u) - 1]? du 的 检验 ,其 中 
blw) = LS k (w, Pl)) 659 
W. = > [@"(Z,)] 
如 同 推导 7 检验 时 的 情况 ,通过 移 除 :=s 的 项 我 们 获得 了 如 下 的 检验 统计 量 : 
1 a s L ¿ x 
P ere Ja Ea W) sw), (Fa OW, ) e) du 


" PAALA ,z)dz + 1 
类 似 于 定理 20. 3 的 结论 ,Chen 4 (2006) RH, fE H, F, 
nh'?I ,Me ,一 N(0,1) 依 分 布 收敛 (20. 64) 
其 中 
go = Ji [f k(u +v)k(v) dv] du 


n,2 


copula 函数 也 被 用 来 模型 化 时 间 序 列 回归 模型 的 依赖 结构 。Chen 和 Fan 
(2006 ) 讨论 了 半 参 数 copula 时 间 序 列 回归 模型 的 估计 。 也 可 以 参见 Brendstrup 
和 Paarsch(2004) ,他 们 考虑 了 拍卖 背景 的 一 个 应 用 ,并且 使 用 了 Frank copula, 


20.5 ”一 个 半 参 数 转换 模型 


在 本 节 我 们 考虑 一 个 如 下 形式 的 转换 模型 : 
A,(Y) = X'g +u (20.65) 
其 中 了 是 一 个 标量 因 变 量 ,4,(' ) 是 一 个 严格 递增 的 函数 ,X 是 解释 变量 向 量 ， 
B 是 系数 向 量 ,u 是 独立 于 的 不 可 观测 误差 项 ,其 具有 一 个 累积 分 布 函数 记 为 
F(，)。 模 型 (20. 65 ) 根 据 A。 和 F(，) 的 不 同形 式 可 以 产生 许多 不 同 的 模型 ， 
包括 Box-Cox 转换 模型 ,加速 衰变 时 间 模 型 ,比例 风险 模型 以 及 混合 比例 风险 模 
型 。 在 参数 背景 下 ,需要 设 定 4, MFC ) ,其 中 任何 一 个 误 设 都 会 导致 非 一 致 
估计 。 在 本 节 我 们 讨论 式 (20. 65 ) 的 非 参 数 估计 ,其 没有 对 A, AF- ) 施 加 函 
数 形式 限制 。B 的 一 个 Vn 一 致 估计 可 以 通过 把 式 (20. 65 ) 看 成 一 个 单 指数 模型 
而 获得 ,这 在 第 8 音 中 有 所 涉及 ;参见 Han (1987 ) , Hirdle 和 Stoker( 1989), 660 
Ichimura(1993 ) ，Powell 等 (1989 ) ,以 及 Sherman(1993) 对 于 估计 B 的 不 同方 
法 。 在 本 节 我 们 仅仅 讨论 A。 的 估计 。 
大 多 数 现 有 的 非 参 数 方法 是 两 步 非 参数 平滑 方法 。 例 如 ，Horowitz(1996 ) 
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以 及 Ye 和 Duan( 1997) 提出 基于 条 件 累 积分 布 函 数 的 非 参数 估计 来 估计 A, A 
F( +). Chen(2002) 提出 了 一 种 避免 非 参 数 平滑 技术 的 秩 估 计 方 法 ( 即 Han 
(1987) ) 。 我 们 下 面 简单 讨论 Horowitz 和 Chen 的 方法 。 
需要 一 些 识别 条 件 来 识别 A, 和 B。 我 们 假定 对 某 些 y Ay) =0, 并 且 
IB,1=1, 其 中 B, 是 第 一 成 分 的 系数 , 它 条 件 于 剩余 变量 的 概率 分 布 关 于 
Lebesgue 测度 是 绝对 连续 的 。 令 |X,,Y 1 ”是 (X,Y) 的 一 个 随机 样本 ,G( - 12) 
是 了 条 件 于 z 的 累积 分 布 函数 ,其 中 z=x'B。 那 么 很 容易 证 明 
G(ylz)= P[Y < yl z] 
= P[T(Y) < T(y) |z] 
= P[U +z < T(y) ] 
= F[T(y) - z] 
Horowitz( 1996 ) 进一步 证 明 


A(y) = -f [G (vl z)/G (vi z)]dv 


其 中 
G (v| z) = 9G(y| z)/ðy, G (vI z) = óG(yl z)/ðz 
因此 ,Horowitz(1996 ) 建 议 通过 下 面 的 式 子 估计 4(，): 


A,(y) =- [| w(z)[G, (vI z)/G,(v! z) ]dzdv (20. 66) 
其 中 w EE | w(z)dz = 1 00—4 08583, C, (vlz) 和 G,(v1z) 分 别 是 


G (vlz) 和 G.(v1z) 的 核 估 计 。 在 一 些 正 则 性 条 件 下 ,Horowitz 证 明 Vna(4.(… ) - 
A,( ` ) ) 收 敛 于 一 个 零 均值 的 高 斯 过 程 ,其 有 一 个 定义 良好 的 协 方差 函数 。 
接 下 来 ,我 们 转向 Chen(2002) 的 估计 过 程 。 定 义 d =1(Y >y)3Ë% d, = 
1(Y 宇 0)。 根 据 A,(， ) 的 单调 性 质 , 我 们 有 
a, =1{X8 +u > A,(y)! 
以 及 
E(d | X) =1-F(A,(>) - XB) 
因此 ,对 izj (E A,(y,) =0) 
E[ (d, -d,,) ! X.,X] >0,34(X, - X)8 > A,(y) (20.67) 
对 于 一 个 给 定 的 6 的 初始 估计 ,我 们 表示 为 B，Chen(2002) 提 出 通过 如 下 
的 式 子 估计 4(7y) : 
A (y) = arg min =r- —17 > gi (d, - d )1(XB -X$ > A) 
(20.68) 
其 中 M, 是 一 个 适当 的 紧 集 。 
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Chen ( 2002 ) 证 明 A, (y) WP F A, (y) Æ — 4 /n — #k f YF Wk, 并 且 
Vn(A.(，) -A,(， )) 弱 收敛 于 一 个 零 均 值 的 高 斯 过 程 , 且 其 有 一 个 定义 良好 
的 协 方差 函数 。 

转换 模型 (20. 65 ) 已 经 被 扩展 到 审查 数据 的 情况 , 即 A (y) =X'B+u, 其 
中 人 们 仅仅 观测 到 y = min1yY"” ,Cl 以 及 8=1(Y" 三 C) ,而 不 是 了 Y"” Gorgens 和 
Horowitz( 1999 ) 提出 了 对 于 审查 转换 模型 的 一 个 基于 核 的 方法 ,而 Chen(2002 ) 
同样 将 他 的 秩 估计 方法 扩展 到 审查 数据 的 情况 。 

Khan 和 Tamer(2007 ) 考虑 了 在 Ridder( 1990) 中 引入 的 如 下 广义 加 速 衰退 
时 间 (GAFT) 模 型 ， 

ACY) = XB +e, i=1,.,n (20. 69) 
其 中 (Y X )' 是 (g +1) xl 维 的 向 量 ,Y 是 因 变 量 (比如 ,在 接受 治疗 后 的 存活 
时 间 ) ,X 是 可 观测 协 变 量 的 一 个 向 量 ,A(， ) 是 单调 但 未 知 的 函数 。 我 们 观察 
(v,,d,) 而 不 是 Y ,其 中 v 是 一 个 标量 变量 ,d, 是 一 个 二 元 随机 变量 ( 即 一 个 “ 右 
审查 ”转换 模型 ) , 即 
A(v) = min(X'pB, + 8B,56,) 
d,=1(Xp, + =, S c,) (20.70) 
其 中 ,如 果 数 据 是 非 审 查 的 ,w = 了 ,对 于 审查 观测 值 ,w =c. Khan 和 Tamer 提 
出 了 一 个 类 似 于 Han(1987) 的 秩 回 归 估 计 方 法 ,并 且 他 们 建立 了 B, 最 终 估计 
量 的 渐 近 正 态 性 。 


20.6 J 题 


习题 20.1 推导 式 (20.24) 。 
习题 20.2 定义 


(t+1)A 
Z,,= k (X, - z) | p(X, ) du 


ñ, (x) = (nA) '> Za, 
然后 我 们 有 
m (x) = m,(x) +m, (x) 
其 中 我 们 使 用 了 在 定理 20.1(i) 中 证 明 的 事实 。 
var(m (x)) = var(m,(x)) + (s.o.) = O((nhA) `') 
证 明 这 的 确 是 真 的 , 即 证 明 var (m, (x)) JE O ( (nh) 一 ) 阶 的 ,其 小 于 
var( 雇 (x) ) 是 O((nhA)”) 的 阶 var( ñ. (x) ) 。 
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附录 A 背景 统计 概念 


在 文献 中 建立 的 很 多 理论 结果 使 用 了 许多 基本 的 
统计 概念 。 下 面 我 们 给 出 在 先前 音节 中 推导 结论 所 需 
要 的 一 些 核心 概念 。 


1.1 概率 、 测 度 和 可 测 空 间 


定义 A.1( 随机 实验 ) 一 个 随机 实验 是 一 个 行为 
或 观测 ,其 结果 在 发 生前 是 不 确定 的 。 一 个 流行 的 随机 
实验 是 “ 抛 硬 币 ”, 因 为 我 们 在 抛 之 前 不 能 肯定 预测 硬币 
是 正面 朝 上 还 是 背面 朝 上 。 

定义 A.21( 样 本 空间 82) 样本 空间 用 2 表示 ,其 被 
定义 为 一 个 随机 实验 中 所 有 可 能 结果 的 集合 。 

例 A.1 若 一 个 硬币 掷 两 次 ,那么 样本 空间 是 

N = {HH,HT,TH,TT} = (w w, w, w] 

其 中 w =HH, w, = HT( 即 第 一 次 抛 的 是 ,第 二 次 是 
T) 。 在 这 个 例子 中 ,有 四 个 基本 事件 w ,i=1,… ,4。 

定义 A.3( 可 数 和 不 可 数 集 ) 令 N .=|1,2,3,…| 
表示 自然 数 的 集合 。 若 中 中 的 所 有 元 素 可 以 被 安排 成 
与 N ,中 的 元 素 一 一 对 应 , 则 称 集合 下 是 可 数 的 。 若 一 
个 集合 有 一 个 可 数 的 子 集 ,但 它 本 身 是 不 可 数 的 ,我 们 
说 这 个 集合 是 不 可 数 的 。 

例 A.2 B=11,3,5,…| 是 可 数 的 ,因为 B= 
15.1" o EP b, =2n -1, 那 么 有 一 个 1 一 1 映射 :n 一 2n 
-1 AN ,到 BB。 类 似 地 ,有 理 数 集 也 是 可 数 的 。 但 是 ， 
集合 [0,1] e R 是 不 可 数 的 ,因为 从 N ,到 [0,1] 找 不 到 
一 个 1 一 1 映射 。 但 是 ,在 B 中 存在 的 子 集 是 可 数 的。 
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例如 ,4 = 11/n} > 是 [0,1] 的 一 个 子 集 , 它 是 可 数 的 。 

Br Aí EPS CA la") = |1,x,x ,…| 有 可 数 的 (无 限 ) 函数 ,然而 所 有 
定义 域 为 [0,1] 的 有 界 连续 函数 的 集合 是 不 可 数 的 。 

定义 A.4( 被 定义 在 人 2 中 的 o 域 ) 令 天 (其 至 少 包含 一 个 非 空 的 集合 ) 是 
介子 集 的 一 个 集合 ,如 果 如 下 的 两 个 条 件 成 立 ,那么 被 称 为 一 个 o 域 (或 者 o 
代数 ) : 


(i) 车 Ae 天 ,那么 A“e 下 ,其 中 A“ 是 4 的 补 集 。 

(ü) 若 A ,4,,…, e 下 ,那么 Lla a z. 

如 上 的 (iD 和 (这 告诉 我 们 一 个 e 域 在 补 集 和 可 数 并 运算 下 是 闭合 的 。 

很 容易 证 明 (a) NeF, (b) 如 # (名 表示 空 集 ),(c) FAA,’ EF, 
那么 N A, e Z. 

(a) 的 证 明 : 令 4 是 的 非 空 集合 。 孝 么 根据 上 面 的 (有 A e 下 ,因此 根据 


(ü) # ()=AU4A EF. 口 
(b) 的 证 明 : 根 据 (i) 以 及 Qe 了 的 事实 可 得 出 @ =M eF, D 
(e) 的 证 明 ;我们 知道 根据 (i) 和 (ii) 的 性 质 有 | U 4.) < Fo 因此 ,根据 

DeMorgan 定律 , 口 


N A = | U 4 | E F 

(02, 下 ) 被 称 为 一 个 可 测 空间 。 

例 A.3 

(i) EIF = 1 名,Q2| 是 一 个 仅 包含 空 集 和 整个 样本 空间 的 o 域 ,那么 它 被 
称 为 “微小 的 er 域 "(一 个 显然 令 人 不 感 兴趣 的 东西 ) 。 

Cii) 者 人 2 包含 n( 其 中 n 是 有 限 的 ) 个 基本 事件 (“元 素 ”) ,那么 它 总 共有 
2" 个 子 集 。 包 含 所 有 介子 集 的 集合 ( 称 为 一 个 “ 客 集 ”) 是 一 个 og 域 ,并 且 是 在 
N 中 被 定义 的 最 大 的 ex 域 。 

定义 A.5 (DeMorgan 定律 ) 令 4,,4,,…, es 和 F(F 是 在 2 中 被 定义 的 o 
域 )。 令 4' 表示 4, 的 补 集 ,那么 


[Ba] ega 
例 A.4 可 以 使 用 一 个 Venn 图 (很 容易 ) 直观 地 验证 DeMorgan 定律 。 例 
如 , 令 4, 表 示 一 个 中 学 篮球 队员 的 集合 ,4, 是 足球 队员 的 集合 。 那 么 U 4 = 
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4,U4, 是 足球 队 或 者 篮球 队 学 生 的 集合 ,因此 , 它 的 补 集 | U A, ) 是 那些 既 不 


是 足球 队 又 不 是 篮球 队 队 员 的 学 生 。DeMorgan 定律 断言 这 个 集合 和 N A' = 


4;m4: 是 相同 的 , 它 是 那些 不 是 篮球 队 成 员 (4; ) 以 及 不 是 足球 队 成 员 的 学 生 的 
集合 ,这 些 当 然 是 正确 的 。 

定义 A.6(c(.4) ,4 生成 的 g 域 ) 令 A 是 2 子 集 的 一 个 非 空 集合 。 那 么 
A 生成 的 og RERA ol A) ,其 满足 

(i) Aec(A), 

Gi) go(A) 是 包含 A 的 最 小 的 og 域 。 

例 A.5 令 4 是 2 的 一 个 非 空 真子 集 ,那么 14,4, 纪 ,2 是 一 个 er 域 , 且 
是 包含 4 的 最 小 的 o 域 。 

对 于 抛 硬币 的 例子 , 若 我 们 选择 4 =u = HH ,那么 iw ju, u u 1, A] 
是 由 4 =w, 生成 的 o 域 。 这 个 ex 域 没 包括 1w,| ,1w,| 等 。 蜂 集 (其 包括 所 有 
人 2 的 子 集 ) 也 包括 4 =w, ,但 它 不 是 包含 4 的 最 小 的 o BQ. ARRE o(4) 
(A=w,)。 

当 样 本 空间 包含 RR 的 一 个 区 间 , 比 如 说 2 =R( 它 包含 不 可 数 的 点 ) ,那么 
R 的 所 有 子 集 的 集合 就 太 大 了 ,并且 在 这 种 情况 不 能 对 RR 的 所 有 子 集 定义 一 个 
适当 的 测度 。 因 此 ,对 RR 的 子 集 施加 一 些 约束 是 必要 的 。 这 可 以 通过 要 求 民 的 
子 集 属于 Borel o 域 来 做 到 ,其 被 定义 如 下 。 

定义 A.7( Borel 域 和 Bored $) R 表示 实数 的 集合 , 即 R =|1y:-%~ < 
yY<m}。 令 4,=17y:-%m <y<x|=( 一 wm ,x), 且 定义 A=14,,xeR|。 那 么 A 
生成 的 er 域 被 称 为 在 民 上 的 Borel( o ) 域 。 

FJ LINEAN fa}, [a,b], (a,b), [a,b),(a,b],[a, +œ ) 都 属于 Borel $, 
此 ,一 个 Borel 域 包括 所 有 实际 感 兴趣 的 集合 。 

例 A.6 从 ( -œ ,a) ec( A) ,我 们 知道 下 面 的 集合 都 属于 o( A): 

(i) [a, +œ )=( -œ ,a)'; 

(ii) [a,b)=( -œ ,b)N[a, +œ )(b >a); 


(iii) lal = 站 [ase +): 


(iv) (a,b) =[a,b) Na", 

在 问题 A. 1 ,读者 被 要 求证 明 所 有 有 理 数 和 所 有 无 理 数 的 集合 都 是 Borel 
集 。 因 此 ,在 R 中 所 有 熟悉 的 子 集 都 是 Borel 集 。 关 于 非 Borel 集 的 一 个 例子 ， 
参见 Royden(1988 ，pp. 64 一 66 ) 。 对 于 应 用 研究 者 ,可 以 忽略 相当 少见 的 非 
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Borel 集 的 情况 ,因为 在 应 用 研究 中 , (几乎) 从 来 不 会 碰 到 非 Borel 集 的 情况 。 

可 以 在 民 的 Borel 集 上 定义 测度 。 

定义 A.8( 测度 ) ”给 定 2 子 集 的 类 别 下 ,一 个 测度 是 从 0 到 R* = |x e 
R :x 宕 01 的 一 个 映射 ,满足 

(i) u(4) 宇 0, 所 有 Ae Z, 

(ii) p(B@)=0 

(iii) 若 14,1” 是 互 斥 的 集合 ,那么 

[U a) = Xea 

# (0) =1, WARR K u 是 一 个 概率 测度 。 

定义 A.9(Lebesgue 测度 ) Lebesgue 测度 是 在 实际 中 最 有 用 的 测度 之 一 ， 
并 且 也 可 能 是 最 直观 的 。 一 个 Lebesgue 测度 m 是 一 个 被 定义 在 实 轴 R (事实 
上 在 Borel 集 马 ) 上 的 一 个 测度 ,对 于 任何 区 间 [a,/ (2=a) ,具有 性 质 普 [ae,] 
=b -a, 即 一 个 区 间 的 Lebesgue 测度 等 同 于 区 间 的 长 度 。 任 何 单独 的 点 的 Leb- 
esgue 测度 为 0。 同样 ,R 的 一 个 可 数 子 集 的 Lebesgue W REE 0, ZAIR 的 Leb- 
esgue 测度 是 w (正如 它 有 无 限 的 长 度 )。 

R 的 一 个 子 集 4 的 Lebesgue 测度 给 出 了 4 面积 的 一 个 测度 ,并 且 对 于 一 个 
集合 4eR , 它 测 度 了 4 的 体积 。 更 高 维 的 Lebesgue 测度 是 类 似 被 定义 的 。 

然而 ,注意 并 非 所 有 的 测度 可 以 被 解释 为 测量 一 个 集合 的 长 度 ,或 者 面积 ， 
或 者 体积 。 例 如 ,一 个 概率 测度 (定义 如 下 ) 上 映射 一 个 具有 无 限 Lebesgue 测度 的 
集合 (比如 ,无 限 长 度 或 者 体积 ) 到 一 个 在 0 和 1 之 间 的 数字 , 它 当 然 不 是 一 个 
集合 长 度 ( 或 者 体积 ) 的 测度 。 

定义 A.10( 概 率 作为 一 个 集合 函数 P) 一 个 概率 测度 是 一 个 从 样本 空间 
到 单位 区 间 [0,1] 的 一 个 映射 , 即 P:2 一 [0,1] 使 得 

(i) P(4)=0, 所 有 4e 和 大 。 

(ú) P(Q) =1。 

(ii) 者 14,1 ,是 中 互 斥 的 事件 , 即 对 所 有 i#j,A DA = 名 ,那么 


P| U A.) = > P(A,) 
三 元 总 体 (2, 大 ,已 ) 被 称 为 概率 空间 。 
定义 A.11( 几 乎 处 处 和 空 集 ) ” 令 是 一 个 定义 在 从 上 的 go 域 , 是 对 所 
有 4e 了 定义 的 一 个 测度 ;那么 我 们 说 对 任何 4,B e F,#r XT T A B 的 元 素 的 集 
合 有 一 个 (4) 测 度 0,4 几乎 处 处 等 于 B( 在 下 )。 一 个 零 测度 集合 也 被 称 为 一 
个 空 集 。 
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例 A.7 考虑 两 个 定义 在 [0,1] 上 的 函数 ,对 所 有 x*e[0,1] ,f(x) =1; 若 x% 
是 一 个 无 理 数 ,g(x) =1; # x 是 一 个 有 理 数 ,g(x) =0。 那 么 对 几乎 所 有 x, 
f(x) =g(x)( 在 Lebesgue 测度 下 ), 因 为 对 f(x) 关 g(x) 的 x 的 集合 是 [0,1] 间 有 
理 数 的 集合 ,其 有 一 个 Lebesgue 零 测度 。 

在 例子 A.7 中 ,我 们 引入 了 在 R 上 的 Borel 集 。 现 在 我 们 定义 在 ” 上 的 
Borel 可 测 集 。 

定义 A.12( Borel 可 测 集 ) 和 若 下 面 的 条 件 成 立 ,我 们 说 一 个 集合 的 集合 
AeRR' 是 一 个 Borel 可 测 集 : 

(i) #Ae A, 那 么 A" e A. 


(ü) 车 4,,4,,…e A, 那么 UU A. e Ao 


R "的 所 有 熟悉 的 子 集 , 诸 如 单元 素 , 开 的 、 闭 合 的 , 半 开 的 、 半 闭 的 区 间 , 它 
们 的 并 和 /或 交 , 都 是 Borel 集 。 

定义 A.13( Bore 可 测 函 数 ) 令 f/(x) 是 一 个 实 值 函数 , 它 映 射 民 :一 > 
R (xeR°'), WAS ` ) 被 称 为 一 个 Borel 可 测 肾 数 , 肴 对 每 一 个 ae R ,集合 
(xe R':f(x) <sa)z— ` Borel 可 测 集 。 

所 有 熟悉 的 函数 都 是 Borel 可 测 函 数 。 例 如 ,任何 连续 函数 是 Borel 可 测 
的 。 同 样 , 一 个 具有 可 数 的 很 多 非 连 续 点 的 函数 也 是 Borel 可 测 函 数 。 事 实 上 ， 
一 个 处 处 不 连续 的 函数 也 可 以 是 一 个 Borel 可 测 函 数 (见习 题 A. 2)。 

令 X 是 一 个 随机 变量 (从 2 到 R 的 一 个 映射 ) ,我 们 使 用 (， RIR X ñ 
累积 分 布 图 数 (CDF ) ,其 被 定义 为 F(x) = PLX<xj], 对 所 有 xeRR。 若 Ff(，:) 
是 可 微 的 (比如 ,一 个 连续 随机 变量 ) ,那么 概率 密度 函数 (PDF ) 被 定义 为 f(x) 
=dF(x)/dx。 注 意 也 可 以 对 离散 随机 变量 使 用 Dirac delta 函数 来 定义 一 个 概 
率 密度 函数 ;参见 定义 A. 40 以 及 后 面 的 讨论 。 

定义 A.14( Riemann 积分 ) 邻 f/(x) 是 一 个 在 [a,b] CR 的 连续 函数 。 划 
分 [a,b] 为 a=x, <x, <… <x =b, X Ax =x, =s j=l, m n tB Ax = 
max Ax RRA. 1) 存 在 ， 


lim > f(x,)Ax, (A.1) 


其 中 x e [x _,,*] ,那么 就 被 称 为 /(，) 在 [a,b] 上 的 Riemann 积分 并 且 被 表 
示 为 

[Kada = | f(x)dx 

a [a,b] 
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可 以 证 明 ,Riemann 积分 具有 性 质 
| f(x) dx =- [f(x) ds 
同样 有 
[Aa á [Kada + | G) dx 

给 定 所 有 的 积分 都 是 良好 定义 且 有 限 的 。 

Riemann 积分 是 在 微 积分 教材 中 经 常 遇 到 的 积分 ,并 且 被 应 用 研究 者 ( 物 
理学 家 工程师 ,经 济 学 家 等 ) 所 使 用 。 

定义 A.15 ( Riemann-Stieltjes 积分 ) 仿 f(x) 和 g(x) 是 定义 在 La,b] 上 的 
实 值 有 界 函数 。 做 一 个 划分 a =x <x <… <x,=b, 定 义 Ax =x -xj = 
1 ,…,n, 并 且 令 Ax = max Axi, 奋 极限 (A.2) 存 在 ， 
lim > f(x,)[g(x 


a 


JE š e [x xi] ,那么 它 就 被 称 为 Riemann Stieltjes 积分 并 且 被 表示 为 


| sdg(z)。 


WEAN- Me ) 有 一 个 共同 的 非 连续 点 ,那么 积分 不 存在 。 但 是 若 
fe : ) 是 连续 的 ,g(， ) 是 可 微 的 ,并 且 g (ax) = dg(x)/dx 是 Riemann 积分 ， 
那么 


) - g(%)] (A.2) 


j+i 


[CG a)a8(z) = [Ag (x) de (A.3) 


式 (A.3) 的 右边 是 一 个 Riemann 积分 ( 即 m(x) =f(z)g''(x)), 

Riemann-Stieltjes 积分 是 Riemann 积分 的 一 般 化 。 当 g(x*) =x 时 , 它 回 到 
Riemann 积分 。 

定义 A.16( 简单 函 数 ) 邻 4cB(Borel 集 ) ,并 且 令 /=1, 表示 一 个 示 性 函 
数 ,使 得 对 xe4, f(x) =1, 和 否则 为 0。 我 们 说 g( : ) 是 一 个 简单 函数 ,车 它 有 以 
下 形式 : 

Rt = (A.4) 

其 中 AeB,j=1,.",m.。 

定义 A.17(Lebesgue-Stieltjes 积分 ) S f( - ) 是 一 个 (Borel) 可 测 函 数 ， 
HS u(A) ŠIR A e Bii Lebesgue 测度 。 # f = > 5°1(4,) 是 一 个 简单 函数 , 那 


么 f( ，) 的 Lebesgue-Stieltjes 积分 被 定义 为 
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z. m= 由 > 加 x 4 la x 


Ja = X ewa) 
EO . ) 是 一 个 非 负 的 可 测 函 数 ,那么 Lebesgue-Stieltjes 积分 被 定义 为 
[fal dx) = sp| feu (dr): z 是 一 个 简单 函数 ， 


对 所 有 = e 4 有 g(x) < f(x) | 


在 上 面 的 定义 中 可 以 将 Lebesgue 测度 /替换 为 任何 其 他 的 测度 v, ke An gé 
一 个 概率 测度 。 这 导致 


[Pan = sup { Jev( da) :g 是 一 个 简单 函数 ， 


对 所 有 x e AK g(x) <fa) | 


我 们 可 以 把 任何 的 可 测 函 数 f(，) 表 达 为 f=f, -f ,其 中 矿 = max(f,0) 

和 f/f =max( -f/f,0) 都 是 非 负 的 函数 , 目 Lebesgue-Stieltjes 积分 被 定义 为 
Jaa = ,dp - ff. du 

注意 Lebesgue-Stieltjes 积分 是 Riemann-Stieltjes 积分 的 一 个 进一步 扩展 。 
即使 一 个 处 处 不 连续 的 函数 (其 当然 不 是 Riemann 积分 ) 也 可 以 是 Lebesgue 可 
积 的 (见习 题 A.7) 。 

即使 一 个 Lebesgue-Stieltjes 积分 函数 也 可 能 不 是 Riemann 可 积 的 。 下 一 个 
定理 告诉 我 们 Riemann 和 Lebesgue-Stieltjes 积分 是 紧密 相关 的 。 

定理 A.1 BEN- ) 是 一 个 有 界 函 数 ,是 在 4 上 的 Rieman 积分 ,我们 用 


(R) | f 来 表示 ,那么 它 也 是 Lebesgue-Stieltjes 积分 且 两 个 积分 是 相同 的 , 即 


fxn dr) = (R) | f(x)dx 


Hp u Az Lebesgue 测度 。 

证 明 :参见 Wheeden 和 Zygmund( 1977 ,定理 5.52)。 g 

定理 A. 1 阐述 了 所 有 的 Riemann 积分 函数 也 是 Lebesgue-Stieltjes 积分 。 此 
外 ,两 个 积分 的 结果 是 相同 的 。 考 虑 到 一 个 Riemann 积分 区 数 总 体 上 比 一 个 
Lebesgue-Stieltjes 积分 更 容易 计算 ,人们 总 是 可 以 使 用 前 者 来 获得 后 者 的 结果 ， 
只 要 Riemann 积分 存在 (参见 习题 A.8) 。 然 而 ,也 存在 一 些 函 数 不 是 Riemann 
积分 ,而 是 Lebesgue-Stieltjes 积分 。 例 如 , Dirichlet 函数 就 是 这 样 一 个 例子 ( 见 
习题 A.2)。 

一 个 随机 变量 的 期 望 被 定义 为 
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RtX) = zz(dm) = [zar(z) 
Hp F( ) 是 XX 的 累积 分 布 函 数 。 它 被 定义 为 一 个 Lebesgue-Stieltjes 积分 。 然 
而 , 若 开 的 概率 密度 函数 HKx) 存 在 ,那么 
E(X) = ms)dz 
这 个 积分 变 成 一 个 Riemann 积分 ,其 通常 比 一 个 Lebesgue-Stieltjes 积分 更 容易 
计算 。 
定理 A.2 令 世 有 一 个 连续 的 累积 分 布 函数 F (xz),3EB2 Y= F (X), 
那么 了 在 [0,1] 上 均匀 分 布 , 即 对 于 任何 ye[0,1],P(7Y<y) =y. 
证 明 : 
P(Y < y) = P[F (z) < y] 
= P|F [F (z)] < F'(y)] (PP 2 是 递增 的 ) 
= P(X<F-'(y)) ( 见 如 下 的 论证 ) 
= PCF-(y)) (F(C) 的 定义 ) 
=y (F (-) 的 连续 性 ) 
在 证 明 中 ,我 们 使 用 了 
PIF- [F(X)] < F'(y)] = P(X < F}' (y) 
当 F(，) 是 严格 递增 时 它 是 真 的 。 然 而 ,Ff,(，) 可 能 是 平坦 的 ; 当 F(，) 平 
坦 时 ,具体 参见 Casella 和 Berger(2002, p. 55 ) 。 
定义 A.18|( 特征 函数 ) 令 工 是 一 个 在 R” 上 具有 累积 分 布 图 数 下 (，) 的 
随机 向 量 。X 的 特征 函数 是 一 个 复杂 的 值 函 数 , 被 定义 为 


$(t) = E(e“”) = Je ”args) (A.5) 
其 中 1= /-l,rx=tx +t,x, +… +tx o 积分 总 是 存在 ,因为 
| e“* | =| cos(it'x) +isin(it’x)| = Weos (it'x) + sin (it'x) = 1 
对 于 一 个 连续 随机 变量 ,$(， ) 唯 一 确定 它 的 概率 密度 函数 为 下 面 的 反 算 公式 
(inversion formula) (afi b(t) 1 dt < ” ): 
= 1 =it'x 
Ka) = Tore (ya: (A.6) 
证 明 : 从 式 (A.5) 我 们 知道 
$(t) = ved, 
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ss > 


将 其 代入 式 (A.6) 中 ,我 们 得 到 (也 改变 了 双重 积分 的 顺序 ) 
fe dr= af | fe ad) 


一 [ac -v)f(v)dv = f(x) 
其 中 我 们 利用 了 以 下 事实 : 
] š it'y pae 
= É. dt = 6(v) 


即 Dirac delta 函数 ,我们 将 在 下 面 的 定义 A.40 和 方程 (A.15) 中 定义 它 。 
定义 A.19 (Lipschitz H) gl ) 是 一 个 R” 上 的 实 值 函 数 。 它 是 阶 
数 为 1 的 一 个 Lipschitz 函数 , 若 如 下 的 不 等 式 被 满足 : 
| g(x) —g(y)] < c||x - y | 
XA x,y eR", Hp e 是 一 个 有 限 的 常数 。 


1.2 度量 、 范 数 和 泛 函 空间 


定义 A.20 (线性 向 量 空 间 ) 一 个 元 素 的 集合 V 被 称 为 实数 上 的 一 个 向 量 
空间 (或 者 线性 空间 ,或 者 线性 向 量 空间 ) ,车 我 们 在 Vx Vv 到 V 上 定义 一 个 + (如 
法 ) 以 及 在 民 x V 到 VV 上 定义 一 个 "(标量 乘法 ) 满 足以 下 的 条 件 : 

(i) x+y=y+x, 

(ii) (x +y)+z=x+(y+z). 

(ii) 有 一 个 向 量 9 使 得 x+0=x, 对 所 有 x e V. 

(iv) alx +y) =ax+Qay, 对 所 有 aeR, 且 所 有 x,yeV。 

(v) (a+B)x=ax+Bx, 对 所 有 a,Be 民 ,日 所 有 x e V. 

(vi) a(B)x=(aB)x, 对 所 有 a Be R ,有 是 所 有 x e V. 

(vii) 0“ x=0, 1 - x=xo 

以 上 定义 的 8 元 素 可 以 被 证 明 是 唯一 的 , 且 其 被 称 为 零 元 素 。 

定义 A.21(C[a,b] 和 C"[a,b] 空 间 ) 我 们 使 用 CLa,b] 来 表示 在 [a,8] 
上 有 界 且 连续 的 实 值 函数 的 集合 。 类 似 地 ,我 们 使 用 C"[a,6b] 来 表示 在 [a,4b] 
上 m 次 连续 可 微 的 函数 (具有 有 界 的 导数 ) ,其 中 m 是 一 个 非 负 的 整数 。 

定义 A.22(L'[a,b] 空 间 ) $ p 是 一 个 正 的 实数 。 一 个 定义 在 [a,5] 上 的 
可 测 函 数 被 称 为 是 属于 空间 P =L [a,b] hY, IAC) de< 

根据 加 法 和 标量 乘法 的 通常 定义 ,，C"[a,b] 和 4L'[a,b] 都 是 线性 向 量 
空间 。 


背景 统计 概念 
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定义 A.23( 线 性 空间 ) ”一 个 实 值 函数 的 空间 被 称 为 一 个 线性 空间 ,如 
果 它 有 以 下 性 质 : 若 / 和 geX, 那 么 af+Bg eXX, 其 中 a 和 pB 是 任意 常数 。 例 如 ， 
L 空间 是 一 个 线性 空间 。 

定义 A.24( 扩 张 空间 和 生成 基 ) < w ,…,v, 是 一 个 向 量 空间 了 中 的 问 
量 ,一 个 形 如 av tan, +… +e e 的 加 总 被 称 为 w ，…2, 的 一 个 线性 组 合 ， 
Ha ,…,a, 是 标量 。v,,…,v, 的 所 有 线性 组 合 的 集合 将 被 表示 为 Span(w ，…， 
v )。 例 如 , 令 v = (1,0)',s, = (0,1) 是 R*(V=R ) 中 的 两 个 向 量 , 那 么 
Span(v,v,) = 民 :*。 也 就 是 说 ,两 个 向 量 w 和 vw, 扩张 空间 民 *, (o,o, ) 被 称 为 
R 的 生成 基 。 

定义 A.25 (一 个 赋 范 的 线性 空间 ) 一 个 线性 空间 被 称 为 是 一 个 赋 范 的 线 
性 空间 , 若 我 们 分 配 一 个 非 负 的 实数 (一 个 范 数 ) |/l 到 每 一 个 fe 外 使 得 

(i) lafl =lel lfl 

(ü) llf+gl < /l + zl. 

Cii) fl =0, 当 且 仅 当 f=0。 

空间 是 一 个 赋 范 线性 空间 ,其 范 数 被 定义 为 


II = {fiA tee 


Sle J, 是 一 个 向 量 空间 V 上 的 一 个 范 数 。 一 个 序列 i217, 被 称 为 一 个 
Cauchy 序列 ,#r j,k—æ H}, || v, -v, I| ,一 0。 

定义 A.26 (Banach 空间 ) ”一 个 赋 范 线性 空间 被 称 为 完全 的 , 若 在 空间 里 
的 每 一 个 Cauchy 序列 收敛 。 一 个 完全 的 赋 范 线性 空间 被 称 为 一 个 Banach 
空间 。 

Banach 空间 的 例子 包括 Ca, b], RAA IIf-8 || p = sup, 


lp 


lg(x) — 


ela,b) 


A(x) 1 定义 的 东 6 数 ;或 者 忆 [a,6], 具 有 以 le -fU = || le) -A Faz] 


定义 的 范 数 。 

一 个 内 积 是 一 个 被 定义 在 了 xFT: 一 民 上 的 函数 ,具有 以 下 性 质 :对 所 有 x, 
y,ze V 和 所 有 a, BER, 

(i) (ax +By,z) =a(x,z) +B(y,z)o 

(ii) (x,y) =(y,x)o 

(iii) (x,x) = | < | 7o 

定义 A.27( Hilbert 空间 ) 一 个 Hilbert 空间 是 一 个 其 范 数 通 过 一 个 内 积 
来 定义 的 Banach 空间 。 

例 A.8 例如 , [0,1] 是 一 个 Hilbert 空间 ,具有 以 (g, 门 =JF(x)g(z)dx 


1⁄2 


674 


537 


675 


538 


非 参 数 计量 经 济 学 


定义 的 内 积 ,以 及 L,- 范 数目 f/f-gl，= 1(f-g,f-g)|“。 然 而 ,其 范 数 以 
|g -fia =P, .18(x) -/(x) 1 定义 的 C[a,6] 不 是 一 个 Hilbert 空间 , 因 
为 不 存在 一 个 内 积 能 够 乘 以 sup 范 数 上 ` Ho 
定义 A.28( 正 交 基 ) 今 H 表 示 一 个 Hilber 空间 , 令 el,e,,…, 是 1 中 的 元 
KHS- ,* ) 表 示 内 积 。 我 们 说 1e 1}, 是 Xt 的 一 个 完全 (可 数 ) 基 ,车 对 所 有 
geH, RWA 
g = 2 ce, (A.7) 
Hep c, 是 某 些 常数 。 
若 (e,,e ) =6, 对 所 有 i,jeN (5 =1, 若 i= 方 否则 为 0) ,我 们 说 |e,| ,是 
—_ FENE; 
若 |e} 是 一 个 正 交 基 ,那么 很 容易 证 明 在 式 (A.7) 中 oj = (e,g)o 
注意 我 们 仅仅 讨论 Hilbert 空间 有 一 个 可 数 (完全 的 ) 基 的 情况 。 一 般 而 
言 ,一 个 Hilbert 空间 可 能 有 一 个 不 可 数 的 基 。 然 而 ,在 多 数 应 用 中 ,我 们 仅仅 遇 
到 前 者 的 情况 。 
定义 A.29( Parseval 等 式 ) lel ,是 1 的 一 个 完全 基 ( 一 个 Hilbert 空 
间 ) ,那么 对 所 有 ge H, RIA 
lal? = (gg) = X> (ee) (A. 8) 
例如 , 令 [ -7,m] 表 示 有 界 连续 和 [ -7,m] 上 的 平方 积分 函数 ,那么 序 
iji 1⁄ V27 sin(mx)/m,cos(mx)/m ,sin(2mrx)/n,cos(2rx)/ m, | 形成 一 个 对 
于 XH 的 完全 正 交 基 (见习 题 A. 10)。 
另 一 个 在 L[ -1,1] 上 的 正 交 基 的 例子 是 Legendre ZHR P, (x) (EIZE 


[ -1,1] 上 的 一 个 正 交 基 上 ,其 被 定义 为 


Pigs AD ara aahi (A. 9) 


2559 4 ax 


例 A.9 P (x) =1⁄2,P (sx) = /3/2x,P,(<) = (3⁄2) /S/2(=' -1/3) ,等 
等 。 可 以 证 明 X} jl 


| P P,a) =0 
同样 也 可 以 证 明 

J p.) =1 
使 得 | P, (xz)| JERR L'[ -1,1] 的 一 个 正 交 基 。 
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Lu 5 3 < 2 z > = > 


定义 A.30( Bessel RER) |, | 2 ht — ` Hilbert 空间 ) 上 的 一 个 正 
交 序列 。 那 么 对 任何 ge H, RIA 


2 (Eu) < lgl? (A.10) 


定义 A.31( Sobolev 范 数 ) ”对 于 定义 在 [a,b] 上 的 可 微 函 数 ,( 一 阶 )Sobo- 

lev 范 数 被 定义 为 
Il = {ff a + | (H as] 
对 于 p Bro fg BJ £ GP 3k (/(x),z e R °), Sobolev 范 数 被 定义 为 
_ b of (x) 2 1⁄2 
Mie Z, S Je] 

定义 A.32 (度量 空间 ) 一 个 度量 空间 1X,p| 是 一 个 非 空 集合 的 元 素 和 
定义 在 于 xX 上 的 一 个 实 值 函 数 p 的 结合 ,使 得 对 于 所 有 在 和 关中 的 x、y 和 z, 有 

(i) p(x,y) 三 0。 

Cii) p(x,y) =0, 当 且 仅 当 x =y. 

(iii) p(x,y) =p(y,z), 

(iv) p(x,y) <p(x,z) +p(z,y)o 

函数 p( - ,'，) 被 称 为 一 个 度量 (metric ) 。 

度量 的 概念 是 距离 的 一 般 化 。 一 个 简单 的 度量 空间 的 例子 是 具有 


p(x,7) = |z - yl = Wei +" +a 

(| e | 是 欧 几 里 得 范 数 ) 的 所 有 数 的 集合 RR'。 事 实 上 ,对 于 任何 赋 范 空间 ( 具 
有 范 数 ‖ .| ) ,可 以 通过 p(x,y) = | x--y | 来 定义 一 个 度量 ,这 个 度量 被 称 为 
通过 范 数 | .|| 导致 的 。 当 在 一 个 度量 空间 的 定义 中 去 掉 条 件 (ii) , 即 当 我 们 
允许 对 某 些 x 关 yx 有 p(x,y) =0 的 可 能 性 时 ,po 被 称 为 一 个 伪 度 量 ( psendomet- 
ric) 。 例 如 ,空间 L RAL pg) = | (z) -g(x)1"dx} "定义 的 度量 ,是 一 
个 定义 在 上 的 伪 度 量 。 然 而 ,车 我 们 把 f=g a. e 处 理 成 1/=g, 那 么 L' 变 成 
一 个 度量 空间 。 

定义 A.33( 开 集 ) 若 对 每 一 个 xe4, 有 一 个 5>0, 使 得 每 一 个 y 有 p(y， 
x) <6 都 属于 4, 在 度量 空间 |X,p| 中 的 一 个 集合 B 被 称 为 开 的 (一 个 开 集 )。 

定义 A.34( 闭 包 ) ” 若 对 每 一 个 8>0 有 一 个 yeB, 使 得 p(y,x) <5, 元 素 x 
被 称 为 一 个 集合 B 闭 包 的 一 个 点 。 我 们 使 用 B 来 表示 B 的 闭 包 。 很 明显 ,B 
GE 

定义 A.35( 闭 集 ) 若 B =B, 一 个 在 |X,plf 的 集合 B 被 称 为 是 闭 的 (一 个 
闭 集 ) 。 
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m r x` = = < z: ia Ñ 


例如 ,对 于 具有 p(x,y) = 1x -yl 的 实 轴 民 ,我 们 有 4 = (0,1) 是 一 个 开 集 ,4 的 
闭 包 4 = [0,1] 是 一 个 闭 集 。 

定义 A.36( 稠密) 令 8 是 在 度量 空间 上 (具有 度量 p) 的 一 个 闭 集 。 若 对 
所 有 (小 的 )s >0, 且 对 每 一 个 x*eB, 有 一 个 ye 4, 使 得 p(x,y) <e, 集 合 4CB 
被 称 为 在 B 上 的 稠密 。? 

例如 ,有 理 数 的 集合 在 实数 集合 (具有 p(x,y) = 1x -yl1) 中 是 稠密 的 。 同 
样 ,C'[a,b] 在 具有 以 L, 范 数 (度量 ) 导 致 的 度量 C[a,b] 中 是 稠密 的 , 即 


P.) = [| U - z) Jae} 


定义 A.37 (绝对 连续 ) ” 若 对 于 任何 集合 4e2,A(4) =0 意味 着 (A) = 
0, 则 测度 > 被 称 为 关于 测度 人 是 绝对 连续 的 。 
令 拟 : ) 是 一 个 非 负 的 Borel 可 测 函 数 ,可 以 通过 下 式 定义 集合 函数 : 


A(A) = [fdr, Á = B 


HER, F) 上 的 一 个 测度 。 可 以 证 明 >(4) =0 意味 着 A(4) =0。 那 么 ,A 关于 
v 是 绝对 连续 的 。f( ， ) 被 称 为 和 A KF v 的 Radon-Nikodym 导数 或 者 密度 且 被 
表示 为 f= dA/dv。 

例 A.10 令 /(，) 是 一 个 概率 密度 函数 ,那么 对 应 的 累积 分 布 函数 被 定 
义 为 


1⁄2 


Fa) = | fd 


我 们 知道 dF(x)/dx =f(x),BD f( ` ) E F( + ) É Radon-Nikodym 导数 或 者 密 
度 ,而 F(，) 是 一 个 概率 测度 。 此 处 dx = dv, 其 中 v 是 Lebesgue 测度 , 且 若 
fe ) 是 一 个 可 测 的 (比如 ,连续 的 ) 函数, 那么 FR(， ) 是 关于 Lebesgue 测度 的 绝 
对 连续 。 

注意 , 若 一 个 累积 分 布 函 数 F(x) 有 非 连 续 的 点 ,如 离散 随机 变量 的 情况 ， 
那么 它 关 于 Lebesgue 测度 不 是 绝对 连续 。 

绝对 连续 比 可 微 更 弱 , 但 强 于 连续 (对 F :))o 

定义 A.38 (标准 布朗 运动 (或 者 维 纳 过 程 )) 我们 称 一 个 定义 在 [0,1] 上 
的 9 维 随机 过 程 WW(1) 为 一 个 g 维 的 标准 布朗 运动 , 若 

(i) PLW(0) =0] =1。 

(ü) W(t) -W(t),W(t,) - W(t), Wa) -W(t ) 独立 于 任何 正 整 


D 通常 “4 在 B 中 稠密 "被 定义 为 4 的 闭 包 等 同 于 没有 使 用 距离 (度量 ) 概 念 的 B; 2 W Royden 
(1988,，p. 142) 。 此 处 我 们 在 度量 空间 中 给 出 一 个 “稠密 "的 等 价 定义 。 
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m 2 ss 属 3 x = 


数 m 和 时 间 划 分 0 三 <£ < <t Slo 

(iii) W(t) ~- W(s)~ N(0,(t-s)1 ),0Ss<ts1, 

定义 A.39( 高 斯 过 程 ) 一 个 随机 过 程 Z( - ) (或 者 Z(x) ,以 x 标记 ,其 中 
x 属于 R" 中 的 一 个 紧 集 ) 被 称 为 一 个 高 斯 过 程 , 若 每 一 个 它 的 有 限 维 边 缘 
(2Z(x ),…,2Z(x ) ) 在 欧 几 里 得 空间 民 ” 上 有 一 个 多 元 的 正 态 分 布 。 

注意 W(t) 是 具有 独立 增 量 和 协 方差 结构 cov(W(s) ,W(t)) =min(s,t) 1 
的 一 个 零 均 值 非 平 稳 高 斯 过 程 。 可 知 W(t) 的 样本 路 径 以 概率 1 连续 ,而 它 在 
[0,1] 上 的 任何 区 间 子 集 是 无 处 可 微 的 。 

令 X(0) 是 一 个 满足 如 下 (Ito) 随 机 微分 方程 的 随机 过 程 : 

dX(t) = p(X(t) ,tdt + o(X(t) ,tdW(t), Ostis!] (A.11) 

引 理 A.1(Ito 引 理 ) 今 g(x,t) 是 一 个 (-%,% )x[0,1] 上 的 一 个 连续 
函数 ( 且 假 定 一 些 附加 的 正则 性 条 件 成 立 ;参见 Tanaka ( 1996, p. 58) ) ,那么 
g(x,t) 满 足 随机 微分 方程 (X = X(t)) 


33 æ A âg’ 
qe(X.,) = Fax + (F+ a (X, st) Ja (A. 12) 
将 式 (A. 12) 中 的 dX, BRIR ID ,我 们 得 到 
- [2 , 28 1 ago 
de(X ,t) x. + axt o) ET (X, +£) | 
+r ADA, (A. 13) 


现在 ,车 g(x,t) =ulx) AR o (x,t) =o (x) 都 是 时 间 同 质 过 程 ,那么 式 
(A. 13) 简 化 为 


ñus) a airia tehda Su” (x) 0 (x) dt +p” (x)o(x)dW, 


(A.14) 
定义 A.40 (Dirac delta 函数 ) Dirac delta 函数 通过 56(x) 来 表示 ,日 有 如 
下 性 质 (xeR'): 
(i) 8(x) =0,x#0, 
(ii) ó(0) =œ, 


Gii) f 8(x)dx = 1, 
可 以 证 明 对 任何 可 测 函 数 g(x) ,我 们 有 

| s(oDe(z)dr = z(0) 
类 似 地 ,对 任何 实数 a, 我 们 有 (见习 题 A. 11) 
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a 


f SG - a)a(a)dx = g(a) 
对 Dirac delta 函数 有 许多 (等 价 的 ) 表 达 式 。 可 以 证 明 (i,xeRR")， 
d(x) = Lf e" “dx (A.15) 

也 可 以 把 Dirac delta 函数 定义 为 一 个 阶段 函数 的 导数 。 考 虑 阶段 函数 
1(x 宇 0), 当 x<0 时 取 0,x>=0 时 取 1。 这 个 函数 在 0 处 是 不 连续 的 ;因此 ,在 通 
常 意义 上 , 它 在 x=0 是 不 可 微 的 。 但 是 ,对 所 有 x* 关 0, 可 以 说 它 有 导数 0, 旦 它 
在 x=0 有 一 个 无 穷 大 的 导数 ,这 意味 着 1(x 宇 0) 的 导数 是 一 个 Dirac delta K 
数 , 即 dl(x 宇 0)/dx =ó(x), 

因此 ,人 们 可 以 使 用 Dirac delta 函数 来 对 离散 随机 变量 定义 一 个 概率 密度 
函数 。 考 虚 以 F(x) = n" > (X, < x) 来 定义 的 经 验 累积 分 布 函 数 的 情况 。 
对 应 的 经 验 概率 密度 函数 可 以 被 定义 为 

f(x) = dF (x)/dx = n" Şax, - x) 

那么 ,我 们 有 


AOL hy f aa, —v)dv 


= n” > (X, < x) 


其 正好 是 F_(x) 。 利 用 这 个 经 验 概率 密度 函数 ,很 容易 证 明 对 任何 可 测 函 数 & 
(x) ,我 们 有 


厂 goDar.(a) = | ¿GO(z)az 


= a faca, — x)dxz = n” 5 (x) 
1.3 极限 和 收敛 的 方式 


1.3.1 极限 上 确 界 和 下 确 界 


定义 A.41( 上 界 和 下 界 ) 车 对 所 有 x*e4, 有 b 宇 x, 则 数 b 被 称 为 是 集合 A 
的 上 界 。 若 是 4 的 一 个 上 界 , 且 对 4 的 每 一 个 上 界 b 有 c<6b, 则 数 c 被 称 为 集 
A A 的 最 小 上 界 ( 用 sup 4 表示 )。 进 一 步 , 若 最 大 元 素 存在 ,sup4 是 4 的 最 大 
元 素 ;例如 , 若 4=[0,1] ,那么 sup 4 =max4 =1, 但 是 ,对 于 B=(0,1), sup B 
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=1, 而 max B 不 存在 ,因为 1 ¢ B(“sup” 的 意思 是 上 确 界 )。 

集合 4 的 最 大 下 界 inf 4 是 类 似 被 定义 的 。 对 于 上 面 4 = [0,1 |] 的 例子 ， 
inf A = min A =0, 对 B=(0,1),infB=0, 而 min B 不 存在 。 

定义 A.42( 极 限 上 确 界 和 极限 下 确 界 ) <la 1” 是 一 个 实数 序列 。 对 
任何 正 整 数 k, 令 B, = sup | a,,a,,,,，…|， 其 明显 是 非 递增 的 ， H a, = 
inf{a a,i] ,那么 |a,| 是 一 个 非 递减 的 序列 。 若 a, 是 一 个 有 界 的 序列 ， 
lim8,#l lima, 都 存在 (有 界 单调 序列 肯定 收敛 )。 它 们 分 别 被 称 为 a, 的 极限 上 


确 界 和 极限 下 确 界 ， 且 分 别 被 表示 为 


lim a =limsupa = = lim sup a, 
n— x —+0 n> 
lim a = lim infa, = = lim in inf a, 


n 


可 以 证 明 lim supa, = infsupa,, 这 比 {a, 上 | 的 最 小 上 界 更 直观 。 类 似 地 ， 
lim infa = sup inf a, 
显然 ， 
lim supa, > lim inf a, 
并 且 a, 的 极限 存在 , 当 且 仅 当 
lim supa, = lim infa (= lim a) 
A, # a =( -1)"=| -1,1,-1,1,…| ,那么 limsupa, =1 H liminfa = 
-1, 且 lima, 不 存在 。 
若 lima, 不 存在 ,那么 {a,1 ”通常 有 几 个 收敛 子 序列 。 若 它们 收敛 于 不 同 
的 值 (如 上 面 例子 表明 的 ) ,那么 lim sup a, 等 于 其 中 最 大 的 那个 , lim inf c 等 于 
最 小 的 。 在 极限 中 当 n 一 % 时 ,或 者 对 n 足够 大 的 值 ,a, 的 取 值 必然 在 这 两 个 
极限 值 之 间 。 
对 于 一 个 一 般 的 集合 14,1”_, ,lim sup 4, 被 定义 如 下 :x e lim sup4 , 当 且 仅 
当 对 无 限 多 的 n,xe A. liminfA 被 定义 为 x eliminfA , 当 且 仅 当 对 所 有 的 n, 
除了 可 能 有 限 多 的 例外 ,x e 4, , 即 存在 一 个 固定 的 正 整 数 n ,使 得 xse4. ,对 所 
有 n>n, 时 。 很 显然 ，lim inf A C lim sup A 。 
可 以 证 明 
lim sup4，= n Ü A, 
liminfA, = UJ f) A 
总 之 , x* € lim sup 4 , 当 且 仅 当 对 所 有 n=1,2 ,存在 一 个 上 宇 n, 使 得 xe4,。 类 
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四 ($) > 机 


似 地 ,x e lim inf 4, , 当 且 仅 当 对 所 有 上 宇 n, 存 在 一 个 正 整 数 n, 使 得 x eA, 
例如 ,定义 4 =[0,2] ,n=1,3,5,…, 以 及 4. =[0,1] ,n=2,4,6,…, 那 么 ， 
lim sup A, = [0,2], liminfA =[0,1]。 


1.3.2 收敛 的 方式 


为 了 定义 各 种 收敛 的 方式 ,我 们 首先 引入 一 个 向 量 * 欧 几 里 得 长 度 "(“ 欧 
几 里 得 范 数 " ) 的 概念 。 给 定 一 个 g x1 的 向 量 * = (zx ,…,x*, )'e R *, fH 
| z | 来 表示 x 的 欧 几 里 得 长 度 ,定义 为 

lal = [z'x]'”? = fx +s, + 

其 中 9 =1( 一 个 标量 ), || x 上 是 x 的 绝对 值 。 

定义 A.43( 依 概率 收敛 ) “< |, |" 是 实数 随机 变量 的 序列 (可 能 是 一 个 
有 限 维 的 向 量 或 者 矩阵 值 ) , 令 XX 是 一 个 与 + 有 相同 维 数 的 随机 向 量 。 我 们 说 
X 依 概率 收敛 于 于 , 若 对 每 一 个 (小 的 )s > 0， 

lim P(| X-Xl<e)=1 


RII OX KERAY 依 概率 收敛 于 X, 
定义 A.44(r 次 均值 收敛 ) RIX R r 次 均值 收敛 于 X, 若 对 某 些 
r>0, 
limE( | -XI ) = O 


fH x DX 来 表示 依 7 次 均值 收敛 。 
当 r=2 时 ,我 们 称 尤 依 均 方 误 差 收 伍 于 X。 


定义 A.45( 依 分 布 收敛 ) RIX 依 分 布 收敛 于 不, 表示 为 蕊 5X, 若 对 

F(x) 所 有 的 连续 点 ,有 
limF (x) = F(x) 
其 中 F (a) #l FC) AE A X RE RA 

定义 A.46( 几 乎 确定 收敛 ) 我 们 说 几乎 确定 (a. s. ) KAF XRH 

概率 1 ,几乎 处 处 (a.e. ) ,或 者 更 强 地 ) , 若 
P(lim XA = X) =1 
(参见 Serfling( 1980, p.6)). 

在 本 书 中 ,尽管 我 们 经 常 使 用 依 概率 收敛 的 概念 ,但 要 指出 我 们 很 少 使 用 
定义 A.43 来 判断 一 个 随机 变量 的 概率 极限 。 这 是 因为 计算 一 个 随机 变量 均 方 
误差 的 极限 (或 者 一 般 而 言 次 均值 ) 比 计 算 随机 变量 的 概率 极限 容易 得 多 ,给 
定 下 文 的 定理 A. 3, 依 均 方 误差 收敛 (或 者 + 次 均值 ) 隐 含 着 依 概率 收敛 。 因 
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此 ,在 实践 中 , 当 判 断 一 个 随机 变量 的 概率 极限 时 ,我们 采用 最 简单 的 方法 , 依 ， 
次 均值 收敛 。 
定理 A.3 21 XU r KEE), WAZ >X. 
证 明 : 这 要 使 用 Chebychev KER, IHEM e >0, 通 过 假定 XX 一 X 依 r+ 次 
均值 ,我 们 有 
P(X, -X <e) < E[IX,- XI] —0 口 


我 们 强调 定理 A. 3 将 被 经 常 使 用 ,在 本 书 中 将 仅仅 涉及 r=1 和 r=2 的 情形 。 
下 面 我 们 提供 一 个 例子 来 说 明 通 过 利用 定理 A. 3 ,概率 极限 的 计算 事实 上 可 以 
相当 直接 。 

例 A.11 

(i) 令 了 是 一 个 零 均值 和 有 限 方差 独立 同 分 布 随 机 变量 的 序列 ( 比如 独立 
同 分 布 N(0,1) ) 定 义 写 =Y /n。 找 出 均 方 误差 和 的 概率 极限 。 

WEH: 4 no BF. E( X) = E(Y')Z/n' =1/n 一 0。 因 此 一 0 依 均 方 误差 
收敛 。 根 据 定理 A.3(r =2) ,我 们 知道 -0。 

Gi) $X... X 是 独立 同 分 布 . 且 具 有 均值 和 有 限 方差 s Ri X, = 
1 :二 ñ 
+ > X, 的 概率 极限 。 

证 明 : 首 先 ,从 直觉 意义 上 可 以 推测 极限 是 总 体 均值 uw。 我 们 通过 计算 下 式 
( 当 n 一 % 时 ) 来 证 实 这 一 点 : 


E[(X, -p)°]= 1/m Y > E[(X, -HA)( -p)] 
i=1l /=1 


1 SEL (E. =p] +o} = ozjmn 一 0 
izl 


其 中 我 们 利用 了 cov(X,,X ) =0 的 事实 ,因为 X, 和 XX HF ij 是 相互 独立 的 。 


Tj X jp, 且 根据 定理 A.3 ff X u, 口 
定理 A.4 


G) HA, SX, Eal IEAA JERR, IA gdF, 一 [ed 依 分 布 收敛。 
Gü) # X X,Y, Deal ) 是 一 个 连续 函数 ,那么 g( ,了 )-Sg(X,c)。 
接 下 来 的 定理 提供 了 依 概率 收敛 和 依 分 布 收敛 之 间 的 关系 。 

定理 A.5 A X 2 2 X, 

证 明 : 参 见 Serfling(1980, p. 19)。 口 
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注意 定理 A.3 #l A. 5 的 道 命题 可 能 不 成 立 (参见 Serfling ( 1980 ) 相应 的 例 
Fe 

在 下 面 的 定理 中 我 们 提供 了 一 些 关 于 依 概 率 收敛 和 依 分 布 收敛 的 有 用 的 
性 质 。 这 些 结论 在 本 书 中 经 常 被 用 到 。 

定理 A.6 POX HY De, Hip e E—4 3938, RZ 

G) X, +y SX +e. 

(ü)2 Y x, 

(iii) X/Y SX/e( 给 定 c 天 0) 。 

证 明 :参见 Serfling(1980，p. 19 ) 。 口 

上 面 的 性 质 类 似 于 普通 的 极限 性 质 。 在 一 些 更 强 条 件 下 (i) 的 证 明 被 留 作 
习题 (参见 习题 A. 4)。 

定义 A.47( 阶 数 : 大 O( - ) 和 小 o(* )) 对 于 一 个 正 整数 ,我 们 记 a = 
0(1), 若 当 n 一 % 时 ,a, 仍然 是 有 界 的 , 即 对 某 些 常 数 C 以 及 对 所 有 n 的 很 大 
的 值 (a, 是 一 个 有 界 序列 ) ,有 la |< C. 

我 们 记 a, =o(1) , 若 当 n— = 时 ,a 一 0。 

类 似 地 ,我 们 记 a, =O(b ),# a/b, = 0O0(1) ,或 者 等 价 地 ,对 某 些 常数 C 
及 所 有 n 足够 大 的 值 ,有 a < Cb o 

我 们 记 a, =o(.) , 若 当 一 om 时 ,(a /b ) 一 0。 

在 下 面 的 例子 和 先前 的 章节 , 当 我 们 说 对 所 有 n 一 些 东西 成 立时 ,我 们 的 
意思 是 对 所 有 ne N , = 11,2,…} ,其 中 我 们 使 用 N ,来 表示 正 整数 的 集合 。 

例 A.12 

(i) 着 a,=n/(n+1) ,那么 a,=0O(1) ,因为 对 所 有 nm,a <1, 

(ii) #a =10/(n+1) ,那么 4a,=o(1) ,因为 当 n 一 % 时 ,a 一 0。 

(iii) 若 a =n+5,b =n,JBBZ a =O(b ) ,因为 对 n>5,a <2b ,或 者 对 所 
#n, a <6b o 

(iv) # a =1/n,b = 1/n° ,那么 b =o(a ) ,因为 《La = (1⁄/n)—0, 

定义 A.48 (概率 阶 数 :大 0,(:) 和 小 o(')) 一 个 实数 (可 能 是 向 量 
值 ) 随 机 变量 序列 | | ”被 称 为 概率 有 界 ,车 对 每 一 个 e >0, 存 在 一 个 常数 1 
和 一 个 正 整 数 N( 通 常 M =M ,N =N ) 使 得 对 所 有 n> N,# 

P[ | ¥ i > M] <e (A. 16) 

MRE KAERA T , 若 对 任何 任意 小 的 正 数 e, RT] 8 E nf A 38 #| — 4 1E 
的 常数 M 使 得 比 M 大 的 ,的 绝对 值 (或 范 数 ) 的 概率 小 于 se。 
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S 


WHE, EX =00)HR), WAX = 0,(1) ;然而 , 反 过 来 就 不 成 立 了 。 
SIXI ,表示 从 一 个 独立 同 分 布 X(0,1) 中 随机 抽取 ,那么 ,0(1) ,但 是 
X, =0,(1)。 事 实 上 ,任何 一 个 具有 良好 定义 的 累积 分 布 函 数 的 随机 变量 是 一 
个 0,(1) 变 量 (见习 题 A.5)。 

方程 (A. 16) 可 以 等 价 地 写 为 对 所 有 n>N, Hi 

PÍ || X | sM] >1-e (A. 17) 
RINEZ, =0,(1) 来 表示 泌 依 概率 有 界 。 


REX, =o (1) , #0, 

KME, REX, =0,(V,) EX y, =0,01), X, =o (y,)# (2 /y,) 
=o (1). 

EEF, =0, (1), WE, =0, (1) VRR. BE,“ =O (1)HT,2 nf 
能 不 是 o(1)。 

如 同 我 们 通过 计算 一 个 随机 变量 的 均 方 误差 (或 r 次 均值 ) 来 获得 它 的 概 
率 极限 的 情况 ,我 们 也 可 以 通过 计算 它 二 次 和 矩 的 阶 (或 了 次 均值 的 阶 ) 来 判断 一 
个 随机 变量 的 概率 阶 数 ,如 同 接 下 来 定理 表明 的 。 

定理 A.7 | 2 | ”是 实数 (可 能 是 向 量 值 ) 随 机 变量 的 一 个 序列 , 令 a. 686 
和 2 是 一 些 非 随机 , 非 负 的 序列 ,那么 

(i) # E| Z | =O(a ),JBZX =O (a). 

(ü) # E[ | x | ] =O(5) ,那么 =O (b), 

(i) 的 证 明 :由 无 | X, | = O(a,) ,我 们 知道 对 某 些 m, >0, 有 

E || X Za || < M, 
对 任何 >0, 选 择 M =M,/s( 一 个 有 限 正常 数 )。 那 么 根据 Markov 不 等 式 ( 见 
式 (A. 24) ) ,我 们 有 
P( | 区 Ma | > M) < E| X/a | /M < ë 
其 意味 着 | Xa, =0,(1) 或 者 | X, | =O (a). 口 

(ii) BU HEBH (ii) 的 证 明 按 照 类 似 的 方式 且 被 留 作 习 题 (见习 题 A. 6)。 

例 A.13 

(i) 对 于 随机 变量 | *,} ”的 任何 序列 ,车 对 所 有 nn 有 ElX1<C < ,或 者 
若 对 所 有 nn 有 E[ 中 xX,] <C<%w ,那么 ,=0,(1)( 这 直接 从 定理 A. 7 得 
到 )。 

(ü) GX ÆRA E(X ) =o(1) 和 var( X ) =o(1) 的 一 个 随机 变量 序列 ， 
那么 .=o,(1)。 这 可 以 以 下 事实 以 及 定理 A.7(ii) 中 得 到 : 

E[ | Xl]= tiE[X X']1 
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= E(X')E(X) + trivar( X )| = o(1) 
定义 A.49( 随机 等 连续 ) J (45) 表示 一 个 由 be B 标识 的 随机 过 程 ,其 
中 B 是 R" 的 一 个 紧 ( 闭 的 和 有 界 的 ) 子 集 , 我 们 说 J(b) 对 beB 是 随机 等 连续 
的 , 若 对 所 有 e >0 ,我 们 有 
lim limsupP[ sup， J (b) - J. (b) ! > e] = 0 (A.18) 
其 中 p(，,* ) 是 一 个 度量 ,比如 p(5,b') = 上 8-b' ,度量 通过 欧 几 里 得 范 数 
KER, 
随机 等 连续 的 一 个 简单 的 充分 条 件 是 通过 如 下 定理 给 出 的 (假定 度量 
p(w,y) = || x-y || , 欧 几 里 得 范 数 ) 。 
定理 A.8 “J (8) 表 示 一 个 由 be 下 标 识 的 随机 过 程 , 其 中 马 是 民 "” 的 一 
个 紧 子 集 。 者 对 所 有 4b,b'e B ,我 们 有 
E[l J (b) -J.(b)!1“] < C | b — b' || ” (A.19) 
对 某 些 w>0,y >1,C 是 一 个 有 限 的 正常 数 ,那么 (4b) 对 于 beB 是 随机 等 连 
续 的 。 
证 明 : 可 以 证 明 式 (A. 19 ) 隐 含 着 如 下 条 件 ( 见 习题 A. 12): 
对 所 有 b,b',b”"eB， 
E[I J (b) J (b') 11 J (b) -J (b”) 1°] < C || b” -b || (A.20) 
对 某 些 BE >0,y >1, 其 中 C 是 一 个 正常 数 。 
根据 Billingsley(1968, p. 128 ) 的 定理 15.6 ,我 们 知道 式 (A. 20 ) 是 一 个 保证 
J (5b) 对 于 beB 是 随机 等 连续 的 充分 条 件 。 因 此 , 式 (A.19) 意 味 着 (5b) 在 4 
eB 上 是 随机 等 连续 的 。 
ERP, J -AFISE m, 在 应 用 式 ( A. 19) 时 可 以 很 方便 地 选择 a 
=2,y=2。 
定义 A.S0( 弱 收敛 ) 一 个 随机 元 素 Z ( - ) 的 序列 (比如 Banach 值 或 者 
Hilbert 值 ) 弱 收敛 于 Z(， ) , 阁 对 所 有 实 值 有 界 连 续 函 数 g(， ), 有 Elg(2,)|] 
Elg(2)]。 
表述 “2Z (，) 弱 收敛 于 Z(， )” 也 被 一 些 作者 表述 成 *Z.(， ) 依 分 布 收敛 
于 Z(，)”。 我 们 在 第 13 章 考 虑 的 一 个 非 平滑 检验 统计 量 的 形式 是 


Z (x) = n° Y ul(X < x) 


(ze S,S 是 一 个 紧 集 , 即 一 个 闭 的 和 有 界 的 集合 ) ,其 中 (X,,u) 是 满足 E(u 1X ) 
=0 的 独立 同 分 布 数据 。Z (x) 是 由 x 标识 的 一 个 随机 过 程 (或 者 一 个 随机 元 
素 )。 若 我 们 通过 下 式 来 定义 一 个 L, 范 数 : 
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b Ën A < g € * "d 


m 


IE[ IZ) 151}? = fE | [Z (a vtan) | | 


JZ Z (> ) 是 一 个 Hilbert 值 随机 元 素 。 可 以 利用 在 1.4 节 给 出 的 Hilbert 值 中 
心 极限 定理 来 推导 2 ( . ) 的 渐 近 分 布 。 

定义 A.51( 连续 映射 定理 ) 

G) 令 X, 是 一 个 随机 变量 序列 。 若 g(。 ) 是 一 个 在 Borel 可 测 集 的 每 一 个 
点 都 连续 的 函数 , 且 X —x 依 分 布 (或 者 依 概率 ) 收敛 ,那么 g(X.) 一 g(x) 依 分 
布 (或 者 依 概率 ) 收敛 。 

(ii) 连续 映射 定理 对 于 随机 元 素 ( 或 者 随机 过 程 ) 也 是 成 立 的 ,其 中 
X ( - ) 和 X(. ) 是 (Banach 值 或 者 Hilbert 值 ) 随 机 元 素 ,并 将 上 面 的 依 分 布 收 
敛 替 换 为 弱 收 敛 。 


1.4 不 等 式 . 大 数 定律 和 中 心 极限 定理 


引 理 A.2( Khinchin 大 数 定律 ) # X ,…, 蕊 是 独立 同 分 布 的 观测 值 , 具 
有 均值 六 < > ,那么 
X = LY x hety x] =E(X) =p 
证 明 : 注 意 上 面 的 引 理 没有 要 求 var( X ) 是 有限 的 。 然 而 , 若 var( X ) = 
o° <o ,那么 例子 A.11(ii) 提供 了 引 理 A. 2 的 一 个 证 明 。 口 
引 理 A.3( Lindeberg-Levy PORRER) # X u X 是 独立 同 分 布 的 
观测 值 ,具有 有 限 的 .< x 和 方差 o° ,那么 
和 l < 4 2 
Vr{ > G, -Di -1) S N(0,0’) 
证 明 :参见 Rao(1973 p.127), 口 
引 理 A.4( Lindeberg-Feller 中 心 极限 定理 ) 令 ,…,X 是 独立 的 观测 
值 ,有 EE(X) =u. var( X) =o? 以 及 累积 分 布 函数 F (Q X 


0, = [LEa] 


lim | maxg,/[Vn og,] | =0 





lim — 5 | (x - n.) 'dF,(z) = O 


n, n i= z-a >s fn 
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~ = 
% z 


"| x 


= S' (Y =n) COL) 


ng i=l 
证 明 :参见 Rao(1973, p. 127)。 口 
引 理 A.5 (Liapunov 中 心 极 限定 理 ) |Z ,| 是 独立 ( 双 数 组 ) 随机 变量 
的 一 个 序列 ,使 得 





E(Z ,) = Mai? var( Z) = F, 
IRE 8 >0 A EIZ | ”<om。 令 
S = 2 Z, o` = var(S ) = T, 
如 果 





lim 
n— e 


PNL (Z - u.) 1 =0,% 8 >0 (A.21) 
n i=l 


z (S. -BS)) == S [Z -ECZ EMO) (A22) 
引 理 A.6( Gramer-Wold 定理 ) 随机 向 量 |X,| 的 序列 天 = IX... X 1 
e R ' 依 分 布 收敛 于 具有 累积 分 布 函 数 F( ) 的 随机 向 量 工 , 若 对 任何 实 向量 
常数 入 = (A，，…,A,) ,有 AX GSA X, 
通过 研究 随机 变量 AX 的 一 个 标量 序列 ,Gramer-Wold 定理 可 以 被 用 来 推 
导 Xe 民 "的 一 个 随机 向 量 序列 的 渐 近 分 布 ,如 以 下 推论 所 证 明 的 。 
推论 A.1 若 对 于 所 有 向 量 AeR"， 
A'X “ A'X— N(A'u A QA) 
那么 X, SN, A). 
证 明 : 这 个 直接 可 以 从 引 理 A.6 得 到 。 o 
5138 A.7( Borel-Cantelli 引 理 ) $ X 是 一 个 随机 变量 序列 , 令 a, 是 非 负 
数 的 一 个 序列 。 若 DPO X, > a.) 是 有 限 的 ,那么 
x <a as, f X = O(a) a.s. 
引 理 A.8(Markov 不 等 式 ) fE E :R *— R , 且 对 所 有 xzeR?*, 有 中 (x) 
>0。 令 4CR "是 R "的 一 个 子 集 ,并 定义 由 = infó(x) ,那么 
$, P(X e A) < E[$(X)] (A.23) 
证 明 ; 
E[ 和 (X)] = [fx) bs) ds > | Kx) 和 (xz)dx > $, | flx) ax 
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= ġ,P(X e A) L] 
注意 当 xeR 时 ,有 中 (x) = lrt 以 及 4 =|x:1x1 宇 al (a >0) ,那么 我 们 有 
$, =a", P(XeA) =P(IXI>a) 以 及 E[$(X)] =E[1XI"]。 那 么 式 (A. 23) 
变 成 
P(I Xl a) < E[I XI ']Z/a' (A.24) 
很 多 教材 将 式 (A.24) 称 为 "Markov 不 等 式 ”。 
注意 当 我 们 选择 (x) =exp(ax) 以 及 4=|x:x>c|l(a>0,c>0) 时 ,那么 
$, = exp(ax), P(X e A) = P(X > c) 
以 及 
E[$(X)] = E[exp(aX)] 
根据 Markov 不 等 式 ,我 们 有 
P(! XI > c) < E[exp(aX)]Zexp(ac) (A.25) 
这 是 在 定理 1.4 的 证 明 用 到 的 式 (1. 55) 。 
引 理 A.9( Chebychev RER) 令 g(x*) 是 恨 上 的 一 个 正 的 Borel 可 测 pš 
数 , 其 在 (0,o ) 是 单调 递增 的 ,g(x) =g( -x)。 那 么 对 于 在 RR 上 的 每 一 个 随机 
变量 以 及 a>0, 我 们 有 
P[I XI > e] < E[g(X)]/g(e) 
当 g(X) = 1XI*(k>0) 时 ,我 们 有 PIXI >e] sE(IXI')/eL, 
引 理 A.10( Hilder FER) X X, 是 两 个 随机 变量 。 那么 对 p>1 以 
及 (1/p) +(1/g) =1, 有 
E[I XX. |] < E! X IF]? EI X, Is] 
X} p =q =2, 我 们 得 到 了 著名 的 Cauchy( 或 Cauchy-Schwarz) 不 等 式 。 
引 理 A.11( 迭代 期 望 定律 ) 令 和 和 了 是 两 个 随机 变量 , 令 E(XY) 是 有 限 
的 ( 且 良 好 定义 的 ) ,那么 
E(XY) = E[ XE(Y| X)] 


引 理 A.12(r 次 均值 收敛 ) 若 (i) X 2X 33 X SX, Gi) |X | 是 一 至 

可 积 的 ,那么 
ELX J= EY], EI X EIX 
使 得 X' 一 致 可 积 的 充分 条 件 是 对 某 些 e >0, 有 
supE | X I" < œ 

或 者 ,对 所 有 (足够 大 的 ) 正 整数 mn, 对 某 些 e>0 以 及 某 些 正常 数 C, 有 
K: ge] 45 

这 里 sup4, 定义 如 下 。 若 4 = sup4,, 那 么 对 所 有 足够 大 的 n, H A, <4, 并 
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且 对 任何 s >0, 存 在 一 个 四 ,使 得 4。>4 - e。 也 就 是 说 , 4 = sup4, 是 关于 序列 
A. 的 一 个 紧 上 界 。 

引 理 A.13( 占 优 收敛 定理 (i)) “< z 是 定义 在 集合 S 上 的 一 个 可 测 函 数 
序列 , 且 假定 对 所 有 xe S, 有 1g,(x)1<m(x) , 且 |m(x)dx 是 有 限 的 。 若 对 所 
有 xe5S, 有 limg,(x) =g(*) ,那么 

lim | g (x)dx = | [limg, (x) Jdx = | g(x) ds (A.26) 

占 优 收敛 定理 给 出 了 可 以 交换 极限 和 积分 运算 顺序 的 条 件 。 若 $ 是 一 个 
有 界 的 集合 ( 即 有 有 限 测度 ) ,那么 可 以 通过 一 个 有 限 常 数 C 来 替换 有 界 函 数 
m(x)。 方 程 (A.26) 在 这 种 条 件 下 仍然 成 立 , 且 这 种 情况 经 常 被 称 为 “有 界 收 
AGER” o 

51 A.14( AKKER (ii)) £#— h iGEM BO SLR AK. + X 
XK 以 及 IX I<SYas ,其 中 E(Y) <= ,那么 E[1X -XI!']—0 H E(X')—E 
(A Ja 

证 明 : 参 见 Rao(1973 ) 。 Ti 

引 理 A.15( 可 变 核 的 U 统计 量 HRE) 此 处 我 们 通过 式 (A. 27 ) 提供 对 
于 二 阶 U 统计 量 H 分解 的 一 个 直观 解释 : 


-了 pA (A.27) 
EPH, ) 是 一 个 对 称 函 数 。 令 

H (X) = EL[H,(X.,X)1X] 
那么 ,五 分 解 涉及 以 与 微分 次 序 不 相关 的 项 的 形式 重 写 U, 即 


U, =E[H,(X,X)] +Ž HX) - E[H,,(X.)]| 


ii IH (X.,X) -H, (X) 


-H,(X) +E[H (X ,X)]| (A.28) 

# ELR (X ,X)] = 0(1) ,那么 很 容易 看 出 式 (A. 28) 的 三 个 项 分 别 是 

0,(1) .0O(n-2) 和 0,(n 7 )。 此 外 ,三 个 项 是 彼此 不 相关 的 。 在 下 面 我 们 H 

分 解 的 应 用 中 ,通常 EL[H (X.X)]=0(a ) (HE4 a, =0O(( 忆 +A)2)) ,分 解 中 

的 第 二 项 是 0,(n-'"?a,) 阶 的 ,第 三 项 甚至 是 更 小 的 阶 。 我 们 也 使 用 一 个 三 阶 U 

统计 的 且 分 解 ,而 Lee(1990,1.6 节 ) 提 供 了 关于 一 个 一 般 的 上 阶 U BH H Ah 
的 详细 结论 。 对 于 具有 可 变 核 的 U 统 计量 ,参见 Powell 4 (1989) 。 
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引 理 A.16( 退 化 U 统计 量 的 中 心 极限 定理 ) 考虑 一 个 二 阶 以 统计 量 ,被 
给 定 为 


sal e Ñ Y En, X) 


其 中 XX EAH, ER FPO CELH (X ,X,)] =0), 且 几乎 
确定 退化 的 (E[H(X,,X,)1X] =0), #H o? =E ((X,,X,)] <2. # X 
G(X, ,X,) =E[H (X ,X,)H (X,,X,) IX,,X,] ,那么 若 当 n > ot, # 
E[ GÈ (X, ,X,)] +n 'E[H'((X ,X,)] Lb 
{E[H((X ,xX,)]} 


W W/o SN(0,1), 
证 明 : 参 见 Hall(1984) 定 理 1。 DJ 
引 理 A.17 $ U, 是 一 个 二 阶 U0U 统 计量， | 693 


U, = [外 y Ya, Z) 


定义 
r.(Z,) = E[H_ 1 (Z,,Z,) 1 Z,] 
F = E[r (Z,)] = E[HB.(Z ,Z.) ] 
U, =F, +Ž Y [r (Z) - L] 


车 E[IH (Z,,Z,) 1°] =o(n) ,那么 
(i) U =r +o (1). 
(ü) Ya(U, -U,) =0,(1). 
证 明 :参见 Powell 4 (1989) 的 引 理 3. 1 。 口 
引 理 A.18 对 于 一 个 阶 退 化 U 统 计量 ,有 
U =|. J] YHA, X.) 


(n,k) 


其 中 H 是 一 个 依赖 于 n 的 对 称 (可 交换 ) 函数 , A, 是 独立 同 分 布 随机 向 量 ， PA 


扩展 到 {1,…,n| 中 1<i <… <i<n 的 所 有 组 合 。 假 定 有 是 位 于 中 心 的 、 B 
unpu p ashpa akay ha . ,大 ,有 
H (sx, z ) = ELH (X ,--,X.) IX =x = X = *] 

它们 的 方差 是 o =va[H (-)], ÆX 
G (X,,X,) = ELH (XX, E (X,,X.) ! X ,X.] 
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Hr — 4 n H E[H ((X ,-:,X )]<=@% ,对 c=3,…,k( 当 kk 三 3 BF)# o/o, 
=o(nt"2?), H4 n—e 时 ， 
E[G'(X ,X,)] +n EL[H, (X, ,X,) ] 
== iq s S =. 
IE[H,,(X ,X,)]1° 
那么 nU, 是 渐 近 正 态 的 ,具有 零 均 值 和 方差 尼 (k - 1) o, /2. 

Fan 和 Li(1996) 证 明了 以 上 结论 。 当 大 =2 时 , 它 简化 为 Hall(1984 ) H 
理 1。 

Srv RRI L 范 数 , 令 S 是 一 个 具有 vwv(S) < = 的 Hilbert 值 随机 元 素 的 
Li, ESER 的 一 个 有 界 子 集 ,那么 可 以 选择 v(，) 作 为 S 上 的 Lebesgue 
测度 。 

引 理 A.19( Hilbert 值 中 心 极限 定理 ) $Z- ),…,2.(* )ÆL (S,v) 
上 Hilbert 值 独立 同 分 布 零 均值 随机 元 素 ,使 得 


ELIZO) 12) = [Java | < = 


(A.29) 


那么 
Z(+) En SZ) 

弱 收 敛 于 (比如 2Z.(，)) 一 个 协 方差 函数 为 2(x,x') = E[Z (x)Z (x') ] ËJ 2 
均值 高 斯 过 程 。 

证 明 :参见 Politis 和 Romano( 1994 ) 的 定理 2. 1 ,或 者 参见 van der Vaart 和 
Wellner( 1996 ,习题 1.8.5, p. 50)。 口 

注意 对 于 弱 收 敛 通 常 需要 检验 两 个 条 件 :(i) 有 限 维 收 敛 , 即 ( Z (x* ),…， 
Z (x ) ) 弱 收敛 于 (2 (xz), Z (x )); (ü) 过 程 (由 :标识 )Z,(，) 是 紧 
的 ,2 第 (i) 点 从 Lindeberg-Levi 中 心 极限 定理 和 Gramer-Wold 策略 得 到 ,而 


(i) 从 E[ |Z (-) 12] < o 得 到 ,其 是 保证 过 程 ws S ZO) 是 紧 的 充分 条 


CE L 范 数 | ` l, F). 
若 不 使 用 我 们 在 第 13 章 讨论 过 的 CM 类 型 统计 量 ,可 以 选择 基于 sup 范 数 
的 统计 量 ,比如 


def 


I (x) = sup | SX =< x) | 
那么 就 使 用 了 一 个 Banach 值 随机 元 素 ( 即 不 是 Hilbert 值 ,因为 sup 范 数 不 能 够 


© 对 于 一 个 随机 元 素 序 列 是 紧 的 定义 参见 Billingsley(1968 ，p.40) 。 


附录 A 背景 统计 概念 


£ w . k k 2i i x. La 


从 一 个 内 积 得 出 ) 。 为 了 证 实 一 个 Banach 值 随 机 元 素 序列 是 紧 的 ,可 以 参见 
Billingsley ( 1968 ) 和 Pollard( 1984 ) ;也 可 参见 Stute(1997 ) ,他 讨论 了 具有 LZ ( .) 
形式 的 一 个 特定 统计 量 。 
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习题 A.1 

(i) 证 明 所 有 有 理 数 的 集合 是 一 个 Borel 集 。 

(ii) 证 明 所 有 无 理 数 的 集合 是 一 个 Borel 集 。 

提示 : 

(i) 注意 有 理 数 的 集合 是 可 数 的 , 即 它 可 以 被 表示 为 > dal, 其 中 每 一 个 
a 是 一 个 不 同 的 有 理 数 ( 单 点 ) o 


(ii) 无 理 数 是 有 理 数 的 补 集 。 695 
习题 A.2 邻 g(x) 被 定义 为 
s(x) = ii # x 是 无 理 数 
0, # x 是 有 理 数 


这 被 称 为 Dirichlet 函数 。 证 明 Dirichlet 函数 是 一 个 Borel nf Wi pg 3 

提示 :考虑 形 如 |x:g(x) al 的 集合 ,对 任何 常数 a <0,a =0,0<a<1, 
a=1, 以 及 1<a< +%。 注 意 空 集 、 有 理 数 集 \、 无 理 数 集 和 民 都 是 Borel 集 。 

习题 A.3 令 4 表示 在 [0,1] 内 的 所 有 有 理 数 ,B 表示 在 [0,1] 内 的 所 有 无 
理 数 。4 和 B 的 Lebesgue 测度 是 什么 ? 

提示 :[0,1] =4UB, [0,1] 有 1 的 Lebesgue 测度 ,并且 

l =m([0,1]) =m(A) + m(B) 

B AnB =O. 

习题 A.4 EERE EL (X, -XX)*] 一 0 和 E[(Y -c) ] 一 0 下, 证明 
定理 A.6(i) 

习题 A.5 证 明 具 有 一 个 良好 定义 的 累积 分 布 函 数 即 F(x) 的 任何 随机 变 
量 是 一 个 O,(1) 变 量 。 

提示 :一 个 良好 定义 的 累积 分 布 函 数 具有 如 下 性 质 : (i) limF (x) =1， 
(ü) lim F(x) =0, (iii) F(x) 是 一 个 非 递 减 的 郴 数 ，(iv) F(x) 是 右 连 续 的 。 
在 这 个 练习 中 仅仅 只 需 使 用 (i) 和 (ii) 。 

习题 A.6 

(i) Qa 和 2 是 两 个 任意 正 的 序列 ,证 明 
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O( Ja, +b.) = O( /a,) + 0( /b,.) 


(ii) 证 明定 理 A.7(ii) 。 


提示 :(i) 利用 
Pr [Eaa jT, 

(通过 平方 每 一 项 可 以 很 容易 地 看 到 不 等 式 成 立 。) (ii) 利用 Chebychev 不 
等 式 。 

习题 A.7 证 明 练 习 A.2 定义 的 Dirichlet KA Lebesgue 积分 日 在 x ee 
[0,1] 上 计算 它 的 Lebesgue 积分 。 

提示 :Dirichlet 函数 是 一 个 由 g(x) =(1)1(4)+(0)1(B) 给 出 的 简单 函 
数 ,其 中 4 是 无 理 数 的 集合 ,B 是 有 理 数 的 集合 。 

注意 Dirichlet 函数 很 明显 不 是 Riemann 积分 。 


习题 A.8 计算 Lebesgue 积分 (i) [ utax) 和 (ii) | eos(x)p( ds) ,其 中 


u J Lebesgue 测度 。 

提示 :利用 定理 A. 1 的 结论 。 

习题 A.9 ejl 是 Hilbert 空间 的 一 个 正 交 基 。 证 明 c = (eg), IEP c, 
在 式 (A.7) 中 被 定义 。 

提示 :考虑 (g,e,) ,用 式 (A.7) 的 右边 来 蔡 换 g&(') ,并 且 利 用 基础 函数 的 
正 交 性 质 。 

习题 A.10 

证 明 ; | 1/ V27, sin (zz )Zm,eos(zz)/m,sin(2zx)/m,cos(2mxz)/m,-, 


sin(mnmx)/VT,cos(nmxz)/VT,…}| 是 关于 xe[ -7,7] 的 一 个 正 交 序 列 。 
提示 :对 任何 正 整 数 k\1, 有 
Ë sin( kx) dx = f cos(lx)dx = 0 


ey 


sin( kx)cos(lx) = [sin( (k +l)x) + sin((k - 1)x)]⁄2 
sin( kx)sin(lx) = [cos( (k -l)x) - cos( (k + 1)x)]⁄/2 
cos(kx)cos(lx) = [cos( (k — I)x) + cos( (k + I)x)]⁄/2 
cos (kx) = [1 + cos(2kx) ]/2 
sin’ (kx) = 1 — cos’ (kx) 


习题 A.11 证 明 | Bla —a)gUs)üx = gla), 30 B( + YE Dimo deba: il 


数 。 
提示 : 记 g(x) =g(a) +[g(x) -g(a)], 并 且 注 意 [g(x) -zg(a)]8(z-a) 
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=0。 

习题 A.12 $J (b)EEM A. S8 给 出 的 一 个 随机 过 程 。 证 明 式 (A.19) 暗 
含 着 如 下 结论 : _ 

对 所 有 5,b'eB,b" 在 5b 和 6b' 的 线段 间 ， 

E[I J (b) -J (0”) 121 J (b') -J (b") 1°] < C l| b” -b' ||” (A.30) 

对 某 些 B >0,y >1,C 是 一 个 正 的 常数 。 

提示 :利用 labl< (1/2)(a +b) ,选择 a =28, 且 注意 

max| | &' -bl , ib- b"i} < b-b ll 
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absolutely continuous , 677 绝对 连续 ，677 
additive model , 283 可 加 模型 283 
additive partially linear model, 297 可 加 部 分 线性 模型 297 
almost everywhere(a. e. ) , 667 几乎 处 处 (a.e. ), 667 
applications 应 用 
adolescent growth, 44, 92, 202 青少年 成 长 , 44, 92, 202 
Boston housing, 200 波士顿 住房 ，200 


conditionally independent private information 


auctions, 648 
continuous time models, 627 
dining out, 145 
direct marketing, 277 
extramarital affairs, 172 
female labor force participation, 
first price auction models, 645 
growth convergence clubs, 385 
inflation forecasting, 93 
interest rate forecasting, 564 
Italian income, 45, 206 
job prestige, 92 
labor productivity, 177 
OECD growth rates, 178, 207 
old faithful geyser, 44 


political corruption, 171 
right-heart catheterization, 642 
strike volume, 147 
unemployment and city size, 43 


value at risk, 203 


条 件 独立 的 私人 信息 拍卖 , 648 
连续 时 间 模 型 627 
外 出 吃饭 ，145 
直销 , 277 
婚外恋 ，172 
175 女性 劳动 参与 , 175 
一 级 价格 拍卖 模型 645 
增长 收敛 俱乐部 385 
通货 膨胀 预测 93 
利率 预测 564 
意大利 收入 , 45, 206 
职业 声望 , 92 
劳动 生产 率 , 177 
经 合 组 织 经 济 增长 率 , 178, 207 
老 忠实 喷泉 (加 州 的 一 个 旅游 景点 一 一 译 
HW), 44 
政治 腐败 , 171 
右 心 导管 插 人 术 ，642 
BTA, 147 
失业 和 城市 规模 ,43 
风险 价值 ,203 


wage inequality, 41 
average treatment effects, 639 


backfitting, 283 
bandwidth, see smoothing parameter 
big O( .+ ) , 684 
big O, ( ` ) , 685 
bootstrap, 360, 365 

block, 563 

i. i.d. , 378 

number of replications, 360 

stationary, 558 

Wild, 289, 308, 357 
Borel-Cantelli lemma, 689 
Borel measurable function, 668 
Borel measurable set, 667 
boundary correction, 80 
boundary effects, 30 


Brownian motion, 678 


censored model 
nonparametric, 343, 345, 346 
parametric, 332 
semiparametric, 335, 337 
central limit theorem 
Degenerate U-statistics, 692 
Hilbert-valued , 694 
central limit theorem ( CLT) , 23 
characteristic function, 671 
cointegration , 564 
confusion matrix, 279 
convergence 
almost everywhere , 682 
almost surely, 682 
in rth mean, 682 
in distribution, 682 
in probability, 682 


主题 索引 


工资 不 平等 , 41 
平均 处 置 效 应 , 639 


反 向 拟 合法 ,283 
窗帘， 见 平滑 参数 
大 0( ，),684 
大 0 ( - ), 685 
自 举 法 ，360,，365 
自 举 块 ，563 
独立 同 分 布 ,378 
重复 次 数 , 360 
FH, 558 
原始 ,289, 308, 357 
Borel-Cantelli 引 理 , 689 
Borel Ff Xi pq X, 668 
Borel 可 测 集 , 667 
边界 修正 , 80 
边界 效应 , 30 
布朗 运动 , 678 


审查 模型 
非 参 数 , 343, 345, 346 
参数 ,332 
半 参 数 , 335, 337 
中 心 极限 定理 
退化 的 U 统计 量 , 692 
Hilbert 值 694 
中 心 极限 定理 (CLT) , 23 
特征 函数 , 671 
协 整 564 
混 消 矩 阵 ，279 
收敛 
几乎 处 处 682 
几乎 确定 ，682 
r 次 均值 , 682 
依 分 布 收敛 ,682 
依 概率 收敛 ，682 
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B k. m 5 镇 Ea z F 这 
weak, 687 s, 687 
copula, 651 copula 函数 ，651 
Cramer-Wold theorem, 689 Cramer-Wold 定理 689 
cumulative distribution function( CDF), 3, 7 累积 分 布 函 数 (CDF), 3,7 
cross-validation 23 交错 鉴定 , 23 
frequency, 7 频率 ,7 
nonsmooth, 182 非 平滑 ，182 
smooth, 20, 184 平滑 , 20, 184 
curse of dimensionality, xvii HPH E, xvii 
density estimation 密度 估计 
least squares cross-validation bandwidth se- 
lection, 15, 27 最 小 二 乘 交 错 鉴 定 的 窗 宽 选择 , 15, 27 
likelihood cross-validation bandwidth selec- 
tion, 18, 28 似 然 交 错 鉴定 的 窗 宽 选择 , 18, 28 
plug-in bandwidth selection, 14, 26 插入 法 的 窗 宽 选 择 , 14, 26 
rule-of-thumb bandwidth selection, 14, 26 经 验 法 则 的 窗 宽 选择 , 14, 26 
Dirac delta function, 679 Diral delta Kğ, 679 
empirical distribution function, 19 ZA tA% 19 
fixed effects, 586 固定 效应 , 586 
Fourier series, 512 Fourier 3⁄2, 512 
frequency method, 6, 115 频率 法 , 6, 115 
Gaussian process, 678 高 斯 过 程 , 678 


generalized method of moments( GMM ) 512 广义 矩 估 计 法 (GMM ) 512 


hazard function, 198 RL AX, 198 
Hilbert space, 674 Hilbert 空间 , 674 
hypothesis testing 假定 检验 

conditional parametric density function, 402 FISA EAM, 402 

conditional parametric distributions, 382 条 件 参 数 分 布 ,382 

correct parametric function form, 355, 正确 的 参数 函数 形式 , 355, 365, 398 
365 398 
equality of density functions, 362, 401 密度 函数 等 同性 ,362, 401 


independence , 378 

omitted variables, 370 

parametric density function, 380 
parametric single index model, 369 
serial dependence , 404 
significance, 375 

significance test, 401 


inequality 
triangle, 481 
instrument variable, 506 
integrated mean squared error( IMSE) , 13 
integrated squared error( ISE), 157 


Kaplan-Meier estimator, 338 
kernel 

Aitchison and Aitken, 167 

Bartlett, 405 

convolution, 16 

Daniell, 405 

Epanechnikov, 35 

Gaussian, 34 

higher order, 33 

Parzen, 405 

triangular, 400 

uniform, 8 
Khinchin’s law of large numbers, 688 
knots, 446 
Kullback-Leibler, 382 
latent variable, 316 
law of iterated expectations, 690 
Lebesgue-Stieltjes integral, 670 
Lebesgue measure, 666 
link function, 250, 295, 463 
Lipschitz function, 672 


local average, 64 
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独立 性 ,378 
遗漏 变量 , 370 

参数 密度 函数 , 380 
单 指标 参数 模型 ，369 
序列 相关 性 检验 ,404 
显著 性 ，375 
显著 性 检验 ,401 


不 等 式 
三 角 不 等 式 , 481 
工具 变量 ,506 
积分 均 方 误差 (IMSE), 13 
积分 误差 平方 (ISE), 157 


Kaplan-Meier 估计 , 338 
ÉE: 
Aitchison 和 Aitken, 167 
Bartlett, 405 
卷 积 , 16 
Daniell, 405 
Epanechnikov, 35 
高 斯 ,34 
高 阶 , 33 
Parzen, 405 
三 角形 , 400 
均匀 ,8 
Kinchin 大 数 定律 ，688 
节点 , 446 
Kullback-Leibler, 382 
潜 变 量 , 316 
迭代 期 望 法 则 , 690 
Lebesgue-Stieltjes 积分 , 670 
Lebesgue 测度 ，666 
连接 函数 , 250, 295, 463 
Lipschitz 函数 ，672 
局 部 平均 ，64 


561 


非 参数 计量 经 济 学 


s. “ i 1 y 
FI z J ' W. 


local constant estimator, 60 局 部 常数 估计 , 60 
AICc bandwidth selection, 72 AICc 窗 宽 选择 72 
irrelevant regressors and bandwidth selection , 不 相关 回归 量 和 窗 宽 选择 73 
73 
least squares cross-validation, 69 . 
plug-in bandwidths, 66 
rule-of-thumb bandwidths, 66 


最 小 二 乘 交 错 鉴 定 ，69 
插入 法 选择 的 窗 宽 ，66 
经 验 法 则 选择 的 窗 宽 , 66 
局 部 线性 估计 , 79 
最 小 二 乘 交 错 鉴 定 , 83 
局 部 多 项 式 估计 ,85 
位 置 一 尺度 模型 346 


local linear estimator, 79 
least squares cross-validation, 83 
local polynomial estimator, 85 


location-scale model, 346 


maximum likelihood estimation, 4 最 大 似 然 估计 , 4 
mean squared error( MSE), 6 均 方 误差 (MSE) , 6 
measure, 666 测度 , 666 
measurement error, 92 测量 误差 ,92 
minimum, 532 最 小 值 , 532 


MINPIN , 230 


MINPIN , 230 


mixing, 535 混合 ，535 
a-mixing，535 a 混合 , 535 
B-mixing, 535 BRE, 535 
小 -mixing，535 p RA, 535 
p-mixing, 535 p 混合 , 535 
Mixingale, 536 j G h 536 
stong, see a mixing 强 混合 , 见 a 混合 

naive kernel estimator, 8 naïve 核 估 计 ,8 

Nadaraya-Watson estimator, see local constant Nadaraya-Watson 估计 , 见 局 部 常数 估计 

estimator 

nearest neighbor , 416 近邻 , 416 

neural network, 547 神经 网 络 547 

nonlinear-differencing, 606, 614 韭 线性 差分 , 606, 614 

nonstationary data , 566 非 平 稳 数 据 ,，566 


normal rule-of-thumb, 14 通常 的 经 验 法 则 ，14 
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oracle estimator, 287 


orthonormal basis, 674 


panel data, 575 
Parseval's equality, 675 
partially linear model, 222 
partial derivative estimator, 80 
pilot bandwidth, 14 
Pitman local alternatives, 400 
poolable , 578 
power series, 512 
probability density function ( PDF) , 3 
product-limit estimator, see Kaplan-Meier esti- 
mator 
product kernel function, 24 
discrete data, 126 
mixed data, 137 


quantile regression, 189 


random effects, 578 
Riemann-Stieltjes integral, 669 
Riemann integral, 668 


Rosenbjatt-Parzen estimator, 9 


selectivity model 
parametric, 316 
semiparametric, 317, 318, 320 
semiparametric efficiency bound, 234, 267 
sieves, 610 
sigma-field , 664 
single index model, 249 
small o( + ), 684 
small o,( . ), 685 
smoothing parametric, 8 


smooth coefficient model, 301 


主题 索引 


oracle 估计 ，287 
正 交 基 ，674 


面板 数据 ，575 

Parseval 等 式 , 675 

部 分 线性 模型 ，222 

偏 导数 估计 ,80 

试验 窗 宽 , 14 

Pitman 局 部 替代 , 400 
可 堆积 的 ,578 

FR% 512 
概率 密度 函数 (PDF) , 3 


生产 极限 估计 ， 见 Kaplan-Meier 估计 
生产 核 函 数 , 24 

离散 数据 ,126 

混合 数据 ，137 


分 位 数 回归 ，189 


随机 效应 , 578 
Riemann-Stieltjes 积分 ，669 
Riemann 积分 ，668 
Rosenblatt-Parzen 估计 ,9 


选择 模型 
参数 的 选择 模型 316 
半 参 数 的 选择 模型 ,317, 318, 320 

半 参 数 效率 边界 ,234, 267 

筛 系数 , 610 

Sigma BR , 664 

单 指数 模型 249 

小 o(，), 684, 684 

小 o('，),685,， 685 

平滑 参数 , 8 

平滑 系数 模型 301 
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非 参 数 计量 经 济 学 


(e 3 bd is 8 = 


Sobolev norm, 675 
spectrum, 401 

spline, 512 

spline function , 446 
stochastic equicontunity, 686 


survival function, 198 


time-differencing, 606, 607 
Tobit 

type-2, 316 

type-3, 320 
transformation model, 659 


trimming, 254, 256, 260, 266, 359 


U-statistic, 691 


U-statistic H-decomposition, 691 


wavelet, 428 

weakly dependent, 535 

weakly exogenous, 506 

weighted integrated mean squared 
error( WIMSE) , 67 


window width, see smoothing parametric 


Sobolev 范 数 ，675 
频谱 , 401 

样 条 , 512 
ERAR, 446 
随机 等 连续 ,686 
EFKS, 198 


时 间 差 分 , 606, 607 
Tobit 
类 型 2, 316 
类 型 3, 320 
变换 模型 659 
修剪 ,254,， 256, 260, 266, 359 


U 统 计量 ,691 
U 统 计量 H iri, 691 


小 波 428 

弱 相 关 ，5$35 

弱 外 生性 ,506 

加 权 积 分 均 方 误差 (WIMSE) , 67 


窗 宽 , 见 平滑 参数 


我 们 有 幸 承 担 这 本 专著 的 翻译 工作 。 该 专著 涉及 该 领域 的 方方面面 ,翻译 
难度 比较 大 。 因 为 该 专著 涉及 很 多 该 领域 的 前 沿 研究 成 果 , 所 以 ,翻译 这 本 专 
闭 对 我 们 的 帮助 也 比较 大 。 该 专著 的 初 译 工作 由 孟 祥 财 (负责 第 1 至 第 3 章 )、 
李 昕 (负责 第 4 至 第 7 章 ) 、. 郭 光 远 (负责 第 8 至 第 11 章 ) \ 褚 冬 琳 (负责 第 12 
至 第 14 章 ) , 仇 静 (负责 第 15 至 第 18 章 ) 和 罗 彩 琴 (负责 第 19 至 第 20 章 及 附 
录 ) 完成 。 对 翻译 初稿 的 文字 校对 工作 由 博士 生 吴 相 波 完成 ,公式 的 校对 工作 
由 博士 生 吴 继 贵 完成 。 最 终 的 校对 工作 由 叶 阿 忠 完 成 。 感 谢 责 任 编辑 郝 小 楠 
对 译 稿 认真 负责 的 编辑 和 校对 ,使 译 稿 增色 不 少 。 由 于 我 们 的 水 平和 能 力 有 
限 ,虽然 已 经 尽 了 我 们 的 努力 ,但 译文 中 的 错误 与 丝 漏 在 所 难免 ,请 读者 和 专家 
指正 , 译 者 的 联系 方式 为 E-mail:vye2004@ fzu. edu. cn, 


叶 阿 号 
于 福州 大 学 新 校区 
2013 年 7 月 
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